当使用 to_date 而没有显式模式参数时 Spark 的默认模式是什么-apache-spark-IT问答社区-解决你的IT疑问

当使用 to_date 而没有显式模式参数时 Spark 的默认模式是什么

bas 2月前

我在工作中继承了一个 spark 项目，该项目使用 to_date 函数将字符串列转换为日期列，有时带有明确的日期模式（即 to_date(dateCol, \'yyyy-MM-dd\')）和

我在工作中继承了一个 spark 项目，该项目使用 to_date 函数将字符串列转换为日期列，有时使用明确的日期模式（即 to_date(dateCol, "yyyy-MM-dd") ），有时则没有（即 to_date(dateCol) ）。

为了更好地理解代码并通过演变来维护它，我想知道：

在没有明确模式参数的情况下，to_date 方法可以识别哪些模式？

注意：我找到了一份文档（针对 pyspark:\），其中指出

By default, it follows casting rules to pyspark.sql.types.DateType if the format is omitted. 
Equivalent to col.cast("date").

但我不知道这些规则是什么。

帖子版权声明 1、本帖标题：当使用 to_date 而没有显式模式参数时 Spark 的默认模式是什么
本站网址：http://xjnalaquan.com/
2、本网站的资源部分来源于网络，如有侵权，请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
5、站长邮箱：yeweds@126.com 除非注明，本帖由bas在本站《apache-spark》版块原创发布，转载请注明出处！

最新回复 (0)

最新倒序只看楼主

Caius Jard 2月前 0 只看Ta

引用 2楼
经过一番搜索，我发现这个迁移文档指出
```
Since Spark 3.3, when the date or timestamp pattern is not specified, Spark 
converts an input string to a date/timestamp using the CAST expression approach. 
The changes affect CSV/JSON datasources and parsing of partition values. 
In Spark 3.2 or earlier, when the date or timestamp pattern is not set, Spark uses 
the default patterns: yyyy-MM-dd for dates and yyyy-MM-dd HH:mm:ss for timestamps. 
After the changes, Spark still recognizes the pattern together with

Date patterns:
  [+-]yyyy*
  [+-]yyyy*-[m]m
  [+-]yyyy*-[m]m-[d]d
  [+-]yyyy*-[m]m-[d]d
  [+-]yyyy*-[m]m-[d]d *
  [+-]yyyy*-[m]m-[d]dT*
```
所以，如果我理解正确的话：
- 直到 Spark 3.2，没有模式的 to_date 和字符串到日期转换仅识别模式 yyyy-MM-dd 。
- 从 3.3 版本开始，它可以识别上述所有模式。

关于作者

bas

UID:354一级用户组

主题数
0

帖子数
-1

精华数
0

注册排名
354

导航

论坛

我的

当使用 to_date 而没有显式模式参数时 Spark 的默认模式是什么

bas

TAG

作者主题

作者最近主题：