8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png

当使用 to_date 而没有显式模式参数时 Spark 的默认模式是什么

bas 2月前

18 0

我在工作中继承了一个 spark 项目,该项目使用 to_date 函数将字符串列转换为日期列,有时带有明确的日期模式(即 to_date(dateCol, \'yyyy-MM-dd\'))和

我在工作中继承了一个 spark 项目,该项目使用 to_date 函数将字符串列转换为日期列,有时使用明确的日期模式(即 to_date(dateCol, "yyyy-MM-dd") ),有时则没有(即 to_date(dateCol) )。

为了更好地理解代码并通过演变来维护它,我想知道:

在没有明确模式参数的情况下,to_date 方法可以识别哪些模式?


注意:我找到了 一份文档(针对 pyspark:\), 其中指出

By default, it follows casting rules to pyspark.sql.types.DateType if the format is omitted. 
Equivalent to col.cast("date").

但我不知道这些规则是什么。

帖子版权声明 1、本帖标题:当使用 to_date 而没有显式模式参数时 Spark 的默认模式是什么
    本站网址:http://xjnalaquan.com/
2、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5、站长邮箱:yeweds@126.com 除非注明,本帖由bas在本站《apache-spark》版块原创发布, 转载请注明出处!
最新回复 (0)
  • 经过一番搜索,我发现这个 迁移文档 指出

    Since Spark 3.3, when the date or timestamp pattern is not specified, Spark 
    converts an input string to a date/timestamp using the CAST expression approach. 
    The changes affect CSV/JSON datasources and parsing of partition values. 
    In Spark 3.2 or earlier, when the date or timestamp pattern is not set, Spark uses 
    the default patterns: yyyy-MM-dd for dates and yyyy-MM-dd HH:mm:ss for timestamps. 
    After the changes, Spark still recognizes the pattern together with
    
    Date patterns:
      [+-]yyyy*
      [+-]yyyy*-[m]m
      [+-]yyyy*-[m]m-[d]d
      [+-]yyyy*-[m]m-[d]d
      [+-]yyyy*-[m]m-[d]d *
      [+-]yyyy*-[m]m-[d]dT*
    

    所以,如果我理解正确的话:

    • 直到 Spark 3.2,没有模式的 to_date 和字符串到日期转换仅识别模式 yyyy-MM-dd
    • 从 3.3 版本开始,它可以识别上述所有模式。
返回
作者最近主题: