据Forrester研究,相对于数据应用不够成熟的公司,那些有效获取业务洞察的公司,有高达8.5倍的可能性实现至少20%的收入增长。然而,要实现这一增长,需要简化一项流程——在数据分析前管理和准备好数据。这就是为什么亚马逊云科技正在构建“Zero ETL的未来”,如此一来,客户可以更多地专注于从数据中创造价值,而不是花精力在准备数据上。
ETL的挑战
什么是ETL?ETL是提取(Extract)、转换清洗(Transform)、加载(Load)的过程,也是数据工程师用来整合来自不同来源的数据的过程。ETL过程可能伴随着挑战性高、耗时长和成本高的问题。首先,它需要数据工程师手动编写自定义代码;接下来,DevOps工程师必须部署和管理基础设施,以确保数据管道能够与工作负载一起扩展。如果数据源发生变化,数据工程师必须手动改代码并再次部署。这个过程可能需要几天的时间,然而与此同时,数据分析师无法进行交互式分析或构建可视化的界面看板,数据科学家无法构建机器学习(ML)模型或进行预测,导致最终用户无法做出基于数据的决策。
此外,构建或更改数据管道所需的时间,可能会导致数据不适用于近实时的场景,比如检测欺诈交易、发布在线广告和追踪乘客列车的时刻表。在这些情况下,改善客户体验、抓住新的业务机会或降低业务风险的机会可能就这样错过了。
反之,当企业可以快速、无缝地集成来自不同来源的数据时,他们对自己的客户和业务有了更好地理解,那么企业就可以更有信心地进行数据驱动的预测,改善客户体验,并在整个业务中推广数据驱动的洞察。
ETL的挑战
什么是ETL?ETL是提取(Extract)、转换清洗(Transform)、加载(Load)的过程,也是数据工程师用来整合来自不同来源的数据的过程。ETL过程可能伴随着挑战性高、耗时长和成本高的问题。首先,它需要数据工程师手动编写自定义代码;接下来,DevOps工程师必须部署和管理基础设施,以确保数据管道能够与工作负载一起扩展。如果数据源发生变化,数据工程师必须手动改代码并再次部署。这个过程可能需要几天的时间,然而与此同时,数据分析师无法进行交互式分析或构建可视化的界面看板,数据科学家无法构建机器学习(ML)模型或进行预测,导致最终用户无法做出基于数据的决策。
此外,构建或更改数据管道所需的时间,可能会导致数据不适用于近实时的场景,比如检测欺诈交易、发布在线广告和追踪乘客列车的时刻表。在这些情况下,改善客户体验、抓住新的业务机会或降低业务风险的机会可能就这样错过了。
反之,当企业可以快速、无缝地集成来自不同来源的数据时,他们对自己的客户和业务有了更好地理解,那么企业就可以更有信心地进行数据驱动的预测,改善客户体验,并在整个业务中推广数据驱动的洞察。