[导读]介绍了该架构各层构件的识别过程,设计了ETL模块构成以及各模块主要功能。该架构已经在10家省级银联分公司的统计分析系统的ETL构建中应用,实践表明该架构是有效的,它能够在比较短的时间内完成统计分析系统的构建,可有效缩短系统的开发周期,大幅度降低各分公司的时间成本和资金成本,对于推动数据仓库和商业智能在银联各个省级分公司的应用有显著意义和使用价值。
数据仓库的数据来源常包含着噪声数据、不完整数据、甚至是不一致的数据。为了得到高质量的数据,必须对抽取(Extract)出来的原始数据做一系列复杂转换(Transform)处理,最后装载(Load)到数据仓库中。这种从原始数据到数据仓库之间,对数据进行的操作称为ETL过程,其工作量大约占系统的60%,实现ETL过程的效率和质量很大程度上决定了数据仓库系统的构建效率和质量。目前研究ETL过程都是集中于个案的研究,强调ETL系统的可扩展性和灵活性,对于如何在类相似或相近的数据仓库项目中共享ETL过程的研究则很少,很大程度上阻碍了数据仓库项目建设效率的进一步提高。如何在一类相似或相近的数据仓库项目中发现其共同特征、知识和需求,使得ETL过程可以在这些数据仓库项目中被反复使用,大幅度提高实现ETL过程的效率,从而提高数据仓库构建的效率,研究该问题具有一定理论意义及实用价值。
基于此,这里研究了基于构件的思想,设计并实现了可重用的ETL架构,经北京银联、江苏银联、浙江银联筹10家银联省级分公司的数据仓库项目实际应用,表明该架构是有效的。
1 基于可复用构件思想的ETL架构设计
1.1 设计思想
基于构件技术的软件复用提倡以已有的工作为基础,充分利用过去工作中积累的知识和经验,将已经辨识的具有相对独立功能的构件应用于新系统的开发,保证新系统开发的过程中,能够将重点集中于辨识和实现应用系统特有的构成成分,最终缩短系统开发周期,提高系统的质量。
基于构件技术的软件复用的核心思想包括如下几个方面:
(1)构件化设计。通过系统地分析一类相似或相近的数据仓库项目,识别出其共同特征和可变特征,并对这些特征进行抽象,形成领域分析模型,并据此进一步识别出可复用的构件。
(2)层次化设计。层次化设计可以提高系统的可扩展性和可维护性。通过层次化设计可以将所有识别的构件按一定的规则(如抽象级别、处理对象和处理的功能)分类管理,然后以分层的形式来组织,进而确定不同层构件之间的交互方式,保证每个构件的变化只涉及它的邻近两层的相关构件,实现系统一定程度上的开放性。
(3)接口化设计。不同层次的构件之间需要沟通,沟通需要规范,通过规范的接口可实现构件之间沟通的规范化。接口只制定规范,具体实现交由构件内部完成。接口化设计将构件的差异放到实现阶段,而不是在设计阶段,使得设计阶段可以致力于软件架构设计的完整性和复用性,使得不同系统之间处理的差异通过替换构件而无需变动架构就可得到解决。
1.2 ETL架构模型设计
基于可复用构件思想的ELT架构(如图1所示)主要分成基础服务层、抽取层、集成转换层、特殊处理层四个层次,每个层次的功能如下所述。
1.2.1 抽取层
抽取层构件位于ETL架构的最底层,直接面对数据源,完成数据抽取阶段的工作。鉴于数据仓库数据源差异性大的特点,这个层的ETL构件在不同数据仓库间差异很大,可重用程度总体上比较低。
1.2.2集成转换层
集成转换层构件主要将抽取层抽取的数据转换成格式规范、含义统一、质量良好的数据,并集成到数据仓库中。由于是在两个层接口构件之间,所以集成转换层构件的输入和输出都要满足层间接口构件的约定,在相似数据仓库项目之间的差异主要体现在业务处理规则上。集成转换层为每类数据对象提供一类ETL处理构件,同层构件之间相对独立,通过抽象各个相似数据仓库项目业务规则,将其封装在构件内,保证ETL架构在相似数据仓库之间移植时,只要通过配置业务规则,ETL构件即可投入使用。
1.2.3特殊处理层
为了保证后续功能开发者可以将注意力放在功能关注的指标上,而不要关心指标的具体口径,更不要担心指标口径变化和指标口径在相似数据仓库项目之间的差异对功能移植造成不利影响,在集成转换层构件处理的基础上,专门增加了特殊处理层,负责将数据仓库中按流水交易形式组织的数据换算成按KPI组织的形式。
1.2.4 基础服务层
为了给ETL提供一个相对稳定和灵活的架构,在元数据管理的构件识别的基础上引入了基础服务层,扩展了传统意义上的元数据管理的功能,包含元数据管理构件、层间接口构件、KPI自动测试构件三大类:这些构件构成了ETL基础和骨架,为系统的稳定性和适应性奠定了基础。
(1)元数据管理构件。元数据是关于数据的数据,元数据管理构件主要完成ETL子系统中元数据管理模块的功能,具体分成三小类,分别是负责维护数据仓库架构的维护类构件、负责维护业务规则的维护类构件和调度类构件。
(2)层间接口构件。为了在各个数据仓库项目之间平稳的移植ETL,在此设计了层间接口构件。从抽象层面上为各数据仓库项目提供一个相同的ETL处理框架,为ETL处理过程各层次的各种功能构件提供接口,实现构件具体处理过程对架构的透明化,为系统功能扩展留下了余地。
(3)KPI(关键绩效指标)自动测试构件。测试无疑是保证系统质量的一个重要方法,ETL也不例外,但是,ETL过程测试和一般的软件测试在测试过程、测试方法、评价标准等方面都有比较大的不同,它是一个非常繁琐、工作量巨大、有一定规律的过程。
从抽象层面上看,一类相似或相近的数据仓库项目每个KPI(关键绩效指标)的维度组合是相对固定的,测试标准和过程是一致的,所以,在ETL架构中,专门提供了KPI自动测试类构件,为每类KPI提供一个自动测试构件,其基本处理逻辑如图2所示。
该类构件能够快速发现ETL架构中集成层和转换层中相关构件数据处理过程中隐藏的问题,从而降低ETL过程测试的难度和工作量,大幅度提高ETL架构的效率和质量。
2银联统计分析系统ETL构件识别与架构设计
为了说明基于可重用构建思想的ETL架构的有效性,下面介绍该架构在多家银联统计分析系统中的实际应用。
2.1 银联统计分析系统的介绍
银联统计分析系统是建立在数据仓库基础上的,为银联各分公司领导提供决策辅助信息的系统。其目的是为了更深入应用银联积累的大量跨行交易数据,是为了促进分公司、银行、金融监管机构和行业客户对业务进行全面、及时、准确的分析和定位,及时了解业务发展动态和预测,及时解决业务发展中存在的问题。
银联在全国有37家省级分公司。各分公司所关心的数据内容,关注的KPI体系,KPI的评价标准都是一致的。但是,各分公司由于当地经济发展水平不同,银行卡应用深度不同,导致各分公司业务种类差异很大,即使是同一种业务,其成熟程度、规范程度差异也很大,体现在数据上就是数据源的种类不一致,即使是相同的业务数据源,在数据结构、业务判断规则、数据表现形式方面也有很大差异性。
这种共性大差异性也大的多个数据仓库系统,设计上选用可重用性构件的思想来指导ETL的架构设计,实现上采用自己开发的拥有自动知识产权决策支持系统产品:数据挖掘商业应用平台(Compass)。该平台包括智能流程管理子系统、报表专家子系统、多维分析子系统、数据挖掘子系统四个部分。其中智能流程子系统是一个独立的ETL开发工具,能够支持基于可复用构件思想ETL过程的实现。
2.2 银联统计分析系统ETL构件分层识别
在银联统计分析系统ETL设计阶段,依据图1所示的ETL架构和设计思想来设计和组织ETL各处理阶段可重用构件以及构件之间的接口规则:
(1)抽取层。银联统计分析系统抽取层处理的数据主要三类:业务数据、维度数据、辅助数据。业务数据主要包括全流水、二次清分数据、公共支付、固网支付、网上支付等业务交易数据;维度数据主要包括商户信息、机构信息、终端信息、地区信息等;辅助数据主要是卡bin信息、发卡信息等。
银联统计分析系统这个层面的数据除了全流水数据外,其他的内容在各个分公司表现形式、处理规则差异很大,封装成构件的价值不大,所以这个层面可以识别的构件只有全流水抽取。
(2)集成转换层。鉴于各分公司统计分析系统所关心的数据内容,关注的KPI体系,关注的维度数据(商户、机构、终端)信息相似度很高,所以这个层面可以识别的构件比较多,主要有两大类:流水数据集成转换构件;维度类数据集成转换构件,具体包括商户、机构、终端、商户类别、地区信息的集成转换构件。
辅助数据因为类型多样,差异比较大,可重用价值不高,所以不对其识别构件。
(3)特殊处理层。银联统计分析系统的特殊处理层的构件不再按照数据类别识别,而是根据每个指标的使用频率、涉及数据记录数的多少识别三类构件:交易指标类构件、调账指标类构件、维度统计指标类构件,分别负责交易类指标、调账类指标、商户和终端发展情况的统计。
(4)基础服务层。各分公司银联统计分析系统对元数据管理要求基本一致且没有特殊要求,银联统计分析系统将其识别为元数据管理构件。
考虑到银联统计分析系统处理的数据对象基本一致,差异主要体现在数据的表现形式和处理规则上,加上ETL过程构件之间传递数据量很大,这里选用数据池的形式而不采用函数调用的形式来定义构件接口。例如,所有分公司对商户关注的信息都是一样的,但是每个分公司提供的商户信息的表现形式却各不相同,抽取层接口数据池通过约定抽取层商户信息抽取过程生成内容和格式,为集成转换层商户信息集成转换构件提供一个稳定的数据源,使其不必关心用户提供的数据源是什么形式。
考虑到银联统计分析系统关注的指标繁多,一次性全部识别成控件难度和工作量都很大。所以,首先识别并封装最重要的、最常用的交易类指标的自动测试构建;然后是调帐指标和维度统计指标的自动测试构件的识别和封装。
2.3 银联统计分析系统ETL架构设计
基于可复用构件思想银联统计分析系统ETL架构具体包含六个功能模块(如图3所示)包括:元数据抽取模块、可重用构件选择和导入模块、数据仓库架构自动维护模块、ETL过程定义模块、ETL调度模块、ETL构件生成模块。各个模块的具体功能分工如下:
(1)元数据抽取模块。这个模块主要完成两项工作:抽取银联业务数据和维度数据元数据,并在此基础上对系统进行更精确的定义,例如银联各类数据源提供的时间周期、银联数据仓库数据保留的时间和备份频率等信息。
(2)可重用构件的选择和导入模块。在银联统计分析系统的分析和设计阶段,已经识别了抽取层、集成转换层等各层有重用价值的构件。为了管理和重用这些构件,构件选择和导入模块的功能有两个:第一,从银联构件库中抽取已经封装的全流水交易数据抽取构件、集成转换构件、KPI转换构件、维度类数据集成转换构件(包括商户、机构、终端、商户类别、地区信息五类构件)、KPI自动测试类构件,将其导入到ETL过程库,按照ETL架构(见图1)对导人的构件分层组织,生成系统的ETL过程框架(如图4(a)所示),图4(a)中的ETL过程链中三个JOB节点分别对应ETL架构(见图1)中的抽取层、数据集成转换层、特殊处理层,图4(b)~(d)分别对应各导人构件(一个JOB节点代表一个导人构件的处理过程)在这三个层次中的组织形式。第二,模块可根据新项目银联分公司特殊业务规则和指标口径配置每个构件的处理规则,将配置信息加入元数据库中。
(3)数据仓库架构自动维护模块。数据仓库架构自动维护模块主要功能是依据元数据库中的信息,为银联统计分析系统完成数据仓库的创建和初始化工作,完成事实表、维度表创建,完成每个构件需要的配置表、中间表和临时表的建立等工作,而这些原本需要用手工来实现和维护的。
(4)ETL过程定义模块。在初始框架的基础上,可通过ETL定义模块可视化地定义构件库中没有可重用构件的ETL过程,例如手续费和品牌费抽取、商户信息抽取(如图5所示)、终端信息过程等,使整个银联统计分析系统的ETL趋于完善。
(5)ETL调度模块。ETL调度模块可以根据系统的调度设置,执行ETL过程库中的ETL过程,实现数据抽取、转换、加载、换算等工作。
(6)可重用构件生成模块。对于新定义的ETL过程,若可重用价值高,可通过ETL构件生成模块从ETL过程库中抽取相应ETL处理过程包装成可重用构件。可重用构件一般包括以下内容:ETL处理过程、配置过程说明文档、相关表(配置表、中间表和临时表)的信息、初始化数据、特殊规则配置功能界面,构件这些构成部分由ETL构件生成模块分别存入到构件库中相关表中。
3 结 语
这里介绍了一个基于可复用构件思想的ETL架构,以北京银联、江苏银联、浙江银联等10家省级银联统计分析系统为例,介绍了该架构各层构件的识别过程,设计了ETL模块构成以及各模块主要功能。该架构已经在10家省级银联分公司的统计分析系统的ETL构建中应用,实践表明该架构是有效的,它能够在比较短的时间内完成统计分析系统的构建,可有效缩短系统的开发周期,大幅度降低各分公司的时间成本和资金成本,对于推动数据仓库和商业智能在银联各个省级分公司的应用有显著意义和使用价值。
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
美国纽约州阿蒙克2022年10月20日 /美通社/ -- IBM(NYSE: IBM)发布 2022 年第三季度业绩报告。 IBM 董事长兼首席执行官 Arvind Kri...
关键字:
IBM
软件
BSP
云平台
成都2022年10月19日 /美通社/ -- 近期,平安养老险积极筹备个人养老金的产品设计和系统开发工作,发展多样化的养老金融产品,推动商业养老保险、个人养老金、专属商业养老保险等产品供给。 搭养老政策东风 ...
关键字:
温度
BSP
东风
大众
广东佛山2022年10月19日 /美通社/ -- 空间是人居生活的基础单元,承载着生存与活动的最基本功能。而对于理想空间的解构意义却在物理性容器之外,体现出人们对于空间和生活深层关系的思考,同时也塑造着人与空间的新型连接...
关键字:
温度
BSP
智能化
进程
上海2022年10月19日 /美通社/ -- 10月17日晚间,安集科技披露业绩预告。今年前三季度,公司预计实现营业收入7.54亿元至8.33亿元,同比增长60.24%至77.03%;归母净利润预计为1.73亿...
关键字:
电子
安集科技
BSP
EPS
北京2022年10月19日 /美通社/ -- 10月18日,北京市经济和信息化局发布2022年度第一批北京市市级企业技术中心创建名单的通知,诺诚健华正式获得"北京市企业技术中心"认定。 北京市企业技...
关键字:
BSP
ARMA
COM
代码
北京2022年10月18日 /美通社/ -- 10月14日,国际数据公司(IDC)发布《2022Q2中国软件定义存储及超融合市场研究报告》,报告显示:2022年上半年浪潮超融合销售额同比增长59.4%,近5倍于...
关键字:
IDC
BSP
数字化
数据中心
上海2022年10月18日 /美通社/ -- 2022年9月5日,是首都银行集团成立60周年的纪念日。趁着首都银行集团成立60周年与首都银行(中国)在华深耕经营12年的“大日子”,围绕作为外资金融机构对在华战略的构想和业...
关键字:
数字化
BSP
供应链
控制
东京2022年10月18日 /美通社/ -- NIPPON EXPRESS HOLDINGS株式会社(NIPPON EXPRESS HOLDINGS, INC.)旗下集团公司上海通运国际物流有限公司(Nipp...
关键字:
温控
精密仪器
半导体制造
BSP
广州2022年10月18日 /美通社/ -- 10月15日,第 132 届中国进出口商品交易会("广交会")于"云端"开幕。本届广交会上高新技术企业云集,展出的智能产品超过140,...
关键字:
中国智造
BSP
手机
CAN
法国高端氢动力汽车制造商Hopium发布全球首款氢动力轿车 -- Hopium Machina Vision。在2022年巴黎汽车周上,Hopium宣布重新开放Hopium Machina Vision订购,首批交付车辆...
关键字:
汽车制造
PI
CHINA
MAC
要问机器人公司哪家强,波士顿动力绝对是其中的佼佼者。近来年该公司在机器人研发方面获得的一些成果令人印象深刻,比如其开发的机器人会后空翻,自主爬楼梯等。这不,波士顿动力又发布了其机器人组团跳男团舞的新视频,表演的机器人包括...
关键字:
机器人
BSP
工业机器人
现代汽车
随着13代酷睿处理器的上市,铭瑄本次同步发布了四款Z790主板,包括两款ATX、一款mATX,以及一款ITX迷你小板。其中,包括新款MS-终结者Z790M D5主板,售价仅1499元。将在10月20日21点随13代酷睿处...
关键字:
酷睿
ATX
接口
DDR
南京2022年10月17日 /美通社/ -- 日前《2022第三届中国高端家电品牌G50峰会》于浙江宁波落幕,来自两百余名行业大咖、专家学者共同探讨了在形势依然严峻的当下,如何以科技创新、高端化转型等手段,帮助...
关键字:
LINK
AI
BSP
智能家电
SAIHUB CAB 025M成功获得安全试验所UL美国与加拿大认证证书 新加坡2022年10月17日 /美通社/ -- SAI.TECH Global Corporation("SAI.TECH"...
关键字:
AI
BSP
PS
清洁能源
郑州2022年10月17日 /美通社/ -- 近日,《福布斯》发布了"2022年全球最佳雇主榜单"(The World's Best Employers 2022),中国平安再度上榜并排名全...
关键字:
福布斯
ST
TI
BSP
通过第二项3nm设计选用扩展技术领先地位 第三季度强劲的贸易和设计选用反映出我们结合了IP和定制硅的混合业务模式 自2022年9月1日起,OpenFive首次并入集团 尽管宏观环境困难,但管理层仍对业务...
关键字:
BSP
ALPHA
PEN
Silicon
阿布扎比和沙特正在权衡,是否在瑞信(Credit Suisse)股价低迷之际,对该行的投资银行和其他业务进行投资。阿联酋和沙特在分别探索通过各自的主权基金,例如阿布扎比穆巴达拉发展公司和沙特公共投资基金(PIF)进行潜在...
关键字:
MICHAEL
UI
SE
PI
欧洲药品管理局人用药品管理委员会 (CHMP) 的积极建议是基于 EFFISAYIL® 1 研究结果,该研究是针对泛发性脓疱型银屑病 (GPP) 发作患者的最大的临床研究[1] 与斑块状银屑病不同,GP...
关键字:
HM
BSP
GP
FOR
流体动压滑动轴承为风机发展书写崭新篇章 轴承滑动层增材制造与精加工为工业级大规模生产铺平道路 轴承设计从综合性系统理念出发 德国施韦因富特和汉堡2022年10月17日 /美通社/ -- 舍弗勒推出了采...
关键字:
齿轮箱
滑动轴承
风力涡轮机
BSP
上海2022年10月17日 /美通社/ -- Brother内置墨仓彩色喷墨一体机DCP-C421W新上市。此次Brother创新引入"按需打印,按页付费"...
关键字:
DC
打印机
BSP
DESIGN