8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png

循环遍历 CSV 并生成数据框

toine 1月前

32 0

我们循环遍历 CSV 文件,处理 CSV 并将结果存储到字符串变量中。字符串的格式如下循环迭代 1 -- string1--> CS,20,20021988,Ind 循环迭代 2 -- stri...

我们循环处理 CSV 文件并将结果存储到字符串变量中。

字符串格式如下

Loop iteration 1 -- string1--> CS,20,20021988,Ind 
Loop iteration 2 -- string2--> FQ,20,,Aus 
loop Iteration 3 -- string3 -->SR,,,US

如果您发现字符串中的字段数不一致,是否有任何方法可以在每次循环期间将此结果存储到 pyspark 数据框中。即在每次迭代期间将每条记录附加到数据框中

最终数据框结果如下

enter image description here

帖子版权声明 1、本帖标题:循环遍历 CSV 并生成数据框
    本站网址:http://xjnalaquan.com/
2、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5、站长邮箱:yeweds@126.com 除非注明,本帖由toine在本站《dataframe》版块原创发布, 转载请注明出处!
最新回复 (0)
  • W.B. 1月前 0 只看Ta
    引用 2

    字段数量不一致是什么意思?每次循环我都会看到 4 个字段,尽管有时它们是 NULL/空白。无论如何,如果您有一个 csv 并且想要将其读入数据框,您可以直接使用

  • 不一致的字段含义,有时我会得到如下数据:第一行有 3 个字段,第二行有 2 个字段

  • 第一排-->FQ,20,Aus 第二排--.>SR,12 第三排-->PQ

返回
作者最近主题: