2KB项目,专业的源码交易网站 帮助 收藏 每日签到

ETL 是甚么?数据提取、转换和加载

  • 时间:2019-04-09 15:47 编辑:2KB 来源:2KB.COM 阅读:473
  • 扫一扫,手机访问
  • 分享
摘要: 英文原文:Wha
英文原文:What is ETL: Extract, Transform, Load

提取、转换、加载(ETL)是一个成熟的进程,它使组织可以应用分歧的数据,而不论数据驻留在那边或存储数据的格局怎么。跟着工夫的推移,ETL跟着营业需求的开展,支撑NoSQL数据库中的流数据和非构造化数据和关系数据库中的构造化数据

ETL为何如斯主要?不管这些决议计划是基于电子表格、贸易智能系统、剖析仪表板仍是机械进修,数据质量城市影响营业决议计划的牢靠性。

其它翻译版本 (1) 加载中

ETL是怎么任务的

ETL触及三个自力的进程:提取、传输和加载。任务流程常常作为一个正在实行的进程来完成。

该进程起首从目的源提取数据,目的源可能包含ERP、CRM和其他企业系统,和来自第三方源的数据。分歧的系统偏向于运用分歧的数据格局,这些格局被标准化为一种通用格局,以便进一步处置。

提取、转换和加载进程是现今企业数据治理的主要构成部分。

转换阶段确保了数据的可用性。转换进程可能包含:

  • 汇总——汇总数据

  • 使用营业规矩——例如,确保数据可以用于或用于其预期目标

  • 干净-辨认和改正错误

  • 肃清反复记载

  • 过滤——依据一些规范选择和/或扫除数据,比方Palo Alto的住民

  • 映照——断定来自分歧系统(如J. Smith和John Smith)的两段数据之间的关系

  • 衔接-从两个或多个记载中组合数据

  • 排序——数字排序、字母排序、工夫排序、反向排序、区域排序等。

  • 转置—将行扭转为列,反之亦然

  • 联系——将一列分红两列或两列以上

  • 验证—确保数据已被清算,并契合预定义的数据质量规范

在加载阶段,数据被加载到目的目标地,目的目标地可所以数据堆栈、云情况或分开的立体文件。

其它翻译版本 (1) 加载中

暂时和永世数据

ETL系统可使用暂时数据或永世数据,这取决于用例。例如,暂时数据(数据的子集)可以用于陈述或剖析。永世数据可以从一个数据库迁徙到另外一个数据库,也能够从一个数据堆栈迁徙到另外一个数据堆栈。

现实生涯中的ETL

ETL轮回的处置方法以下:

  • 启动周期

  • 树立参考数据

  • 从资本中提取数据

  • 验证

  • 变换

  • 阶段

  • 审计陈述

  • 宣布到目的表

  • 存档

  • 清算

其它翻译版本 (1) 加载中

数据迁徙

数据迁徙是数据从一台盘算机、数据库、使用顺序或存储装备到另外一台盘算机的Mobile。当组织完成It才能的当代化,用另外一个供给商的产品交换一个供给商的产品,或许整合技术生态系统(例如在兼并和收买时期)时,凡是会如许做。在整合场景中,数据映照是需要的,由于现有系统和新系统偏向于运用分歧的数据格局并以分歧的方法组织数据。

虽然数据迁徙偏向于主动实行,以减速流程并减少手工错误的可能性,但依然需求警惕处置,以免不用要的营业中断。在履行迁徙之前,应当了解并处置任何技术束缚,以免不用要的延迟或失败。同时,应当为终端用户供给充分的提早告诉,而且迁徙应当在对营业影响最小的时分(例如,在午夜,周末等等)实行方案。

数据流和把持流

数据流是数据从一个地方Mobile到另外一个地方。在ETL过程当中,目的源经过转换到目的目的。

把持流程确保处置Task曾经依照准确的次序完成。Task的优先级是线性的,这需求一个过程在另外一个过程Start之前完成。

固然把持流履行数据流Task,可是数据流(数据流Task)中的Task可以在完成之前触发另外一个Task,这意味着数据流Task可以并行履行。

因为欧盟的通用数据维护律例(GDPR),数据流映照Tools变得十分主要,由于组织需求说明他们正在处置甚么个人身份信息(PII)和他们怎么处置这些信息。

并行处置

跟着数据的疾速增加,数据存储的可伸缩性变得十分主要,因而ETL软件如今也在应用并行处置的优势也就屡见不鲜了。固然,它的长处是进步了速度和可伸缩性,这在数据量不时增加的状况下是需要的。

并行处置可以:

  • 并行数据拜访

  • 并行Task履行

  • 并行流程履行

重启,可恢复性

数据堆栈进程思索到毛病,因而ETL进程可以从头运转并从运转错误中恢复。与其运转一个宏大的ETL过程,不如将该过程分化成按次序或并交运行的更小的部分。每一个数据流都标志了流程的行和元素,因而假如发作毛病,就晓得毛病点。假如发作毛病,则将ETL过程回滚到毛病点,以便从该点从头运转该过程。

键的主要性

关系数据库运用键来树立和辨认表之间的关系。键还用于标识表内的记载或数据行:

  • 独一键是标识特定实体的列

  • 组合键包括几个列
  • 外键是另外一个表中援用主键的键
  • 主键是单个属性或多个属性,它们专一地标识表中的一行

在数据堆栈中,键十分主要,由于数据是从分歧数据源加载到数据堆栈中的。分歧的数据源可能运用分歧的属性作为主键。假如如许做,数据堆栈可能请求将它们兼并到一个维度中,该维度包括由各类主键表现的一切属性。

虚拟ETL

虚拟ETL应用虚拟数据来克制数据迁徙和处置多个数据源的使用顺序集成带来的一些应战。从各类数据源搜集的工具或实体被笼统出来,目标是创立内存或耐久元数据存储库。耐久元数据存储库答应ETLTools作为中间件实行耐久化,如许数据和谐和剖析就能够在靠近及时的状况下不断履行。

ETL与ELT

ETL和ELT触及类似的进程,虽然次序分歧。ETL是自数据堆栈呈现之前就Start运用的传统流程次序。大数据剖析推进了 ELT,的普及,数据多样性也是如斯。

ELT将提取的数据加载到实行转换的数据堆栈中。与ETL分歧,ELT不运用独自的转换引擎,它运用数据存储的处置才能来简化系统构造并减速转换进程。


本文中的一切译文仅用于进修和交换目标,转载请务必注明文章译者、出处、和本文链接。 2KB翻译任务按照 CC 协议,假如我们的任务有进犯到您的权益,请实时联络我们。


2KB项目(www.2kb.com,源码交易平台),提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

  • 全部评论(0)
资讯详情页最新发布上方横幅
最新发布的资讯信息
【计算机/互联网|】Nginx出现502错误(2020-01-20 21:02)
【计算机/互联网|】网站运营全智能软手V0.1版发布(2020-01-20 12:16)
【计算机/互联网|】淘宝这是怎么了?(2020-01-19 19:15)
【行业动态|】谷歌关闭小米智能摄像头,因为窃听器显示了陌生人家中的照片(2020-01-15 09:42)
【行业动态|】据报道谷歌新闻终止了数字杂志,退还主动订阅(2020-01-15 09:39)
【行业动态|】康佳将OLED电视带到美国与LG和索尼竞争(2020-01-15 09:38)
【行业动态|】2020年最佳AV接收机(2020-01-15 09:35)
【行业动态|】2020年最佳流媒体设备:Roku,Apple TV,Firebar,Chromecast等(2020-01-15 09:31)
【行业动态|】CES 2020预览:更多的流媒体服务和订阅即将到来(2020-01-08 21:41)
【行业动态|】从埃隆·马斯克到杰夫·贝佐斯,这30位人物定义了2010年代(2020-01-01 15:14)
联系我们

Q Q: 7090832

电话:400-0011-990

邮箱:7090832@qq.com

时间:9:00-23:00

联系客服
商家入住 服务咨询 投拆建议 联系客服
0577-67068160
手机版

扫一扫进手机版
返回顶部