表分区列的最大值 vs 同一张表的显示分区结果的最大值-apache-spark-IT问答社区-解决你的IT疑问

表分区列的最大值 vs 同一张表的显示分区结果的最大值

Muhammed Ashraf Al-Arabi 1月前

15 0

假设我有一张包含客户订单的表，仅按 date_transaction 分区。我想找到 date_transaction 的最大值。之前，我只是运行 spark.sql(\'SELE...

假设我有一张包含客户订单的表，仅按进行分区 date_transaction 。我想找到 date_transaction .

以前，我只是简单地跑了一下 spark.sql("SELECT MAX(date_transaction) FROM orders").first() （简单的方法）。

我最近发现我可以使用 spark.sql("SHOW PARTITIONS orders").toPandas().max() + 一些字符串清理（显示分区方法）。

我注意到使用显示分区可以使过程更快，因为 Spark 不需要扫描整个表。

我能想到的一个缺点是，如果最大日期交易中没有数据，显示分区仍会返回它，而简单的方法将返回正确的日期（是否有空分区？）。

我想知道显示分区方法是否还有我没有想到的其他缺点。

我很感激您的意见。谢谢，祝您有愉快的一天。

帖子版权声明 1、本帖标题：表分区列的最大值 vs 同一张表的显示分区结果的最大值
本站网址：http://xjnalaquan.com/
2、本网站的资源部分来源于网络，如有侵权，请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
5、站长邮箱：yeweds@126.com 除非注明，本帖由Muhammed Ashraf Al-Arabi在本站《apache-spark》版块原创发布，转载请注明出处！

最新回复 (0)

Muhammed Ashraf Al-Arabi

UID:27630一级用户组

主题数
0

帖子数
0

精华数
0

注册排名
27630

导航

论坛

我的

表分区列的最大值 vs 同一张表的显示分区结果的最大值

Muhammed Ashraf Al-Arabi

TAG

作者主题

作者最近主题：