首页 > 开发 > 综合 > 正文

spark 中 rdd to dataframe 问题

2024-07-21 02:51:31

字体：大中小

来源：转载

供稿：网友

在spark streaming 过程中遇到数据不对的地方，最有check 到时我们RDD到dataframe 出现了问题

rowRdd = rdd.flatMap(build_data_row) statsRdd = rowRdd.map(map_to_id) dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)

上面的程序中map_to_id 这个function 尽管return Row(.......) 但是在sqlContext.createDataFrame 中出现数据跟预期的不一样的情况最后从spark 的文档发现， RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的，如果没有指定的话，可能出现数据的错乱

尤其是在table 字段很多的情况下.

PS:

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrameschema – a StructType or list of names of columnssamplingRatio – the sample ratio of rows used for inferring

上一篇：sqlserver清楚文本中的换行符

下一篇：关于锁（悲观锁与乐观锁）

学习交流

如何查找有故障的配件

如何查找有故障的配件...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

最牛同桌！我考了696分我同桌考了703分

2024-06-26 22:28:41

650分！高二女生考入北大：遗憾不能上高三

2024-06-26 22:26:16

男生估分600只考了397 妈妈：高考虽重要，但不代表所有

2024-06-26 22:23:01

唐尚珺回应是否会直播带货：有人出100万想和他合作！

2024-06-25 19:29:23

名校抢人名场面：清华、北大太拼了！

2024-06-25 19:22:14

男生高考语文满分！网友：第一次听说

2024-06-25 19:19:15

疑难解答

图片精选

网友关注