我需要 Apache Spark 来执行我的 Airflow DAG 任务吗？-python-IT问答社区-解决你的IT疑问

我需要 Apache Spark 来执行我的 Airflow DAG 任务吗？

RD60 2月前

12 0

我有一个包含多个 DAG 的工作流。每个 DAG 都有多个任务。这些任务是简单的 ETL 任务。它涉及 kmls、csvs 形式的地理数据。示例任务：我们有道路收集的元数据...

我有一个包含多个 DAG 的工作流。每个 DAG 都有多个任务。

这些任务是简单的 ETL 任务。它涉及 kmls、csvs 形式的地理数据。

示例任务：我们有以纬度、经度形式呈现的道路集合点的元数据。我们制作这些集合的线串，在道路交叉口处断开线串，应用不同的方法过滤掉重复的线串。例如，如果一条线串出现在另一条线串的 8 英尺缓冲区中，则必须删除一条线串。

数据大部分是 csv。每个 csv 大小大约为 20mb。我需要 Apache Spark 来实现分布式流程吗？

Airflow 还可以以分布式方式处理数据。目前，我们正在使用本地执行器，但我们可以使用 celery 执行器使我们的流程分布式化。

distributed-computing

帖子版权声明 1、本帖标题：我需要 Apache Spark 来执行我的 Airflow DAG 任务吗？
本站网址：http://xjnalaquan.com/
2、本网站的资源部分来源于网络，如有侵权，请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
5、站长邮箱：yeweds@126.com 除非注明，本帖由RD60在本站《python》版块原创发布，转载请注明出处！

最新回复 (0)

RD60

UID:239一级用户组

主题数
-1

帖子数
-1

精华数
-1

注册排名
239

导航

论坛

我的

我需要 Apache Spark 来执行我的 Airflow DAG 任务吗？

RD60

TAG

作者主题

作者最近主题：