我有一个包含多个 DAG 的工作流。每个 DAG 都有多个任务。这些任务是简单的 ETL 任务。它涉及 kmls、csvs 形式的地理数据。示例任务:我们有道路收集的元数据...
我有一个包含多个 DAG 的工作流。每个 DAG 都有多个任务。
这些任务是简单的 ETL 任务。它涉及 kmls、csvs 形式的地理数据。
示例任务:我们有以纬度、经度形式呈现的道路集合点的元数据。我们制作这些集合的线串,在道路交叉口处断开线串,应用不同的方法过滤掉重复的线串。例如,如果一条线串出现在另一条线串的 8 英尺缓冲区中,则必须删除一条线串。
数据大部分是 csv。每个 csv 大小大约为 20mb。我需要 Apache Spark 来实现分布式流程吗?
Airflow 还可以以分布式方式处理数据。目前,我们正在使用本地执行器,但我们可以使用 celery 执行器使我们的流程分布式化。