8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png

我需要 Apache Spark 来执行我的 Airflow DAG 任务吗?

RD60 2月前

12 0

我有一个包含多个 DAG 的工作流。每个 DAG 都有多个任务。这些任务是简单的 ETL 任务。它涉及 kmls、csvs 形式的地理数据。示例任务:我们有道路收集的元数据...

我有一个包含多个 DAG 的工作流。每个 DAG 都有多个任务。

这些任务是简单的 ETL 任务。它涉及 kmls、csvs 形式的地理数据。

示例任务:我们有以纬度、经度形式呈现的道路集合点的元数据。我们制作这些集合的线串,在道路交叉口处断开线串,应用不同的方法过滤掉重复的线串。例如,如果一条线串出现在另一条线串的 8 英尺缓冲区中,则必须删除一条线串。

数据大部分是 csv。每个 csv 大小大约为 20mb。我需要 Apache Spark 来实现分布式流程吗?

Airflow 还可以以分布式方式处理数据。目前,我们正在使用本地执行器,但我们可以使用 celery 执行器使我们的流程分布式化。

帖子版权声明 1、本帖标题:我需要 Apache Spark 来执行我的 Airflow DAG 任务吗?
    本站网址:http://xjnalaquan.com/
2、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5、站长邮箱:yeweds@126.com 除非注明,本帖由RD60在本站《python》版块原创发布, 转载请注明出处!
最新回复 (0)
返回
作者最近主题: