8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png

表分区列的最大值 vs 同一张表的显示分区结果的最大值

Muhammed Ashraf Al-Arabi 1月前

15 0

假设我有一张包含客户订单的表,仅按 date_transaction 分区。我想找到 date_transaction 的最大值。之前,我只是运行 spark.sql(\'SELE...

假设我有一张包含客户订单的表,仅按 进行分区 date_transaction 。我想找到 date_transaction .

以前,我只是简单地跑了一下 spark.sql("SELECT MAX(date_transaction) FROM orders").first() (简单的方法)。

我最近发现我可以使用 spark.sql("SHOW PARTITIONS orders").toPandas().max() + 一些字符串清理(显示分区方法)。

我注意到使用显示分区可以使过程更快,因为 Spark 不需要扫描整个表。

我能想到的一个缺点是,如果最大日期交易中没有数据,显示分区仍会返回它,而简单的方法将返回正确的日期(是否有空分区?)。

我想知道显示分区方法是否还有我没有想到的其他缺点。

我很感激您的意见。谢谢,祝您有愉快的一天。

帖子版权声明 1、本帖标题:表分区列的最大值 vs 同一张表的显示分区结果的最大值
    本站网址:http://xjnalaquan.com/
2、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5、站长邮箱:yeweds@126.com 除非注明,本帖由Muhammed Ashraf Al-Arabi在本站《apache-spark》版块原创发布, 转载请注明出处!
最新回复 (0)
返回
作者最近主题: