IBM：迈向智能化数据经纬的第一步 -- AI赋能，建立智能数据目录

[导读]作者：王积杰，IBM数据与AI产品线大中华区信息架构产品总监北京2022年1月24日 /美通社/ -- 数据治理已经发展了20多年，从最早的元数据管理，到...

作者：王积杰，IBM数据与AI产品线大中华区信息架构产品总监

北京2022年1月24日 /美通社/ -- 数据治理已经发展了20多年，从最早的元数据管理，到后来的数据质量管理，很多企业多年前都建设了名为数据治理的项目。但是，如果你去问这些企业，数据治理项目做得怎么样？发挥了怎样的业务价值和效益？你得到的答案往往不尽人意。很多企业建设好数据治理项目以后，就荒废了没有人使用。为什么会造成这样的情况呢？究其原因是，其数据治就理项目只是面对IT人员的，并不是面对业务人员的。如果一个项目不是面对业务人员的，就难以发挥业务价值，业务人员无法使用，往往是不可能获得成功的。因此，近年来，国外兴起了建设数据目录的热潮，不只是谈数据治理，而是为了解决面向业务人员并体现业务价值的问题。数据目录就是为了帮助业务人员以及数据科学家，解决寻找数据、了解数据、优化数据以及使用数据的难题。

什么是数据目录？

图1

很多人还不清楚什么是数据目录，我来打个比方，我们用书来比喻数据。大家都知道图书馆的图书目录，我们过去进到图书馆借书，首先就要去查找图书目录。如果一个图书馆如图1右下角那副照片那么乱的话，相信就连图书管理员也无法找到想要的书吧？如果一个企业的数据库管理得那么乱，那么就连数据库管理员可能也无法找到数据了。如果一个图书馆如图1右上角那样的话，那说明这个图书馆的书，已经分门别类摆放整齐了，就像一个企业的数据，结构化的和非结构化的，都分别在数据库里或大数据平台上，放得整整齐齐了。但是，对于图书馆来说，其主要任务是为读者服务的，书摆放得整齐，需要借书的读者就能借到他要的书吗？我们都知道，那是不够的，因为缺少一个图书目录，就是图1左边的小抽屉。那个小抽屉里放的是一张一张的书卡，书卡上写了一些什么呢？往往有书的名字、书的简介、书的作者、书的出版年份，还有书的类别，比如是物理类的还是化学类的；书的属性，比如是工具书类的还是文艺书类的；书适合的年级，比如一年级还是三年级；最重要的是书的具体位置，它是在图书馆的哪一排的哪一层的哪一格里。有了这张书卡，我们就可以轻松地找到这本书并借到这本书了。我曾经和一个大型企业的CIO聊天，这家企业20年前就建了数据仓库，十年前又建了大数据平台和数据湖，类似数据治理的项目都建设过好几期了。我问CIO最近企业在IT方面开展什么项目呢？CIO回答，最近招进了好几个数据科学家，打算开展AI项目的建设，但是遇到了困难。数据科学家们在工作中，要花70%以上的时间在寻找数据，而不是AI 建模。CIO问，为什么我们过去的数据治理项目，帮不了这些数据科学家呢？我就告诉这个CIO, 你们过去的数据治理项目，都是面向IT用户的，不是面向业务人员的。如果你真的要帮助数据科学家方便快捷地找到他们要的数据，你就要建设真正的数据目录。

建立数据目录的业务准备

图2

要建立真正的数据目录，前期还是要做好一些业务方面的准备工作的，就像建一张书卡一样，书卡上的内容，你先要准备好。数据目录一般有这样一系列的业务域的元素：

数据分类（Categories）：这是从业务角度，对业务数据的分类。就像图书馆里的书，按物理、化学、生物、医学来分类一样。企业里可以按分公司或部门来分类，也可以按业务类型来分类，如：销售类、生产类、财务类等等。
业务术语（Terms）:业务术语就有点像书卡上的书名了，读者根据书名来找书，那么数据科学家们往往也是根据业务术语来找他要的数据。比如：VIP客户、日产量、月产量等。也可以是一些业务的指标和维度。
政策（Policies）: 大到国家小到企业，都有很多政策，会影响数据的性质和使用。比如：个人数据的隐私保护，欧盟有GDPR，中国也出台了《个人信息保护法》，对个人信息我们需要打上隐私标签，进行保护，不能随意泄露。
规则（Rules）: 数据都有规则，有的是业务规则，有的是数据质量规则。比如：身份证号码，它的规则是18位的数字，前6位代表地区，中间8位代表生日，后三位是序号，最后一位是校验码。有些物料的号码，第一位是字母代表材质，后四位四数字代表序列等等。
参考数据（Reference Data）:有些数据是代码，需要通过参考数据来知道真正的数值。
数据分级（Classification）: 就像书卡上会告诉你这本书是给一年级用的还是给四年级用的，数据也是需要分级的。比如：第一级的数据属于公开数据大家都可以看，第二级的数据只有部门经理才能看，第三级的数据是给高层领导看的，第四级数据只有董事会的成员才能看等等。
数据类型（Data Class）: 我们可以对数据根据它的类型进行分类，比如：姓名、地址、电话、身份证号码，或者是产品代码、产品种类或是产量信息等等。我们需要对Data Class的类型进行定义，比如通过正则表达式。Watson Knowledge Catalog将可以通过AI的方式，根据Data Class的定义，自动的进行数据的分类和识别。

建立数据目录的技术难点

数据目录的实现其实并不容易，否则，为什么那么多年来，大多数的客户还是在普通的数据治理层面，仅能够面向技术人员，而不能面向业务人员呢？原因是：一个企业的业务域元素可能有几万个，而技术域的元数据可能有几十万个，几万个与几十万个的对应关系，可比图书馆的书卡制作要复杂得多了。几千本书你可以通过书卡，用人工的方法一一对应。但几万个业务域元素和几十万个技术元数据的对应，全部要靠手工来实现，几乎是不可能完成的任务。这也是这么多年来，数据目录没有很快发展起来的原因，直到最近AI技术和机器学习技术的引进，才帮助我们解决了这个问题 -- 针对这个难题，IBM推出了Watson Knowledge Catalog。Watson是IBM响当当的AI名片，所以Watson Knowledge Catalog里，采用了大量的IBM企业级AI和机器学习的技术，来帮助我们实现从业务到技术的关联。

图3

图3展示了数据目录各个元素之间的关系。其中，从业务术语到数据资产的那个红色的箭头，一直是数据目录建设的难点。直到IBM采用了大量的AI和机器学习的方式，来帮助座自动的关联，才解决了这个问题。如果业务元数据或者Data Class定义了清晰的数据规则，那么，Watson Knowledge Catalog 就可以应用AI的能力，进行自动关联。如果并没有定义清晰的规则，那么，我们可以用人工的方式，手工地进行关联，同时Watson Knowledge Catalog会进行机器学习，自动建立规则。当你用手工多关联几次，自动建立的规则越来越完善以后，系统就能通过AI实现自动关联了。

建立数据目录的技术准备

建立数据目录，我们要了解企业内部都有哪些数据？这些数据在哪里？数据质量状况是如何的？这些都可以使用Watson Knowledge Catalog的数据自动发现功能去实现。Watson Knowledge Catalog 会自动地发现数据，自动地连接数据源，并导入元数据。它还可以自动地分析数据的质量状况，进行数据质量的打分，并形成数据质量的图表或仪表盘。数据质量的打分，可以利用已经定义的数据质量规则，也可以允许业务人员用拼图的方式，自定义数据质量规则。这种定义方式有点像拼图游戏，数据科学家可以用一些简单的规则如大于、小于、等于、AND、OR、包含、不包含等，自己拼出数据质量规则, 并运行，几分钟就可以得到数据质量的报告。过去，数据科学家拿到一批数据，为了要了解其数据质量，往往要把需求提给IT部门，IT部门还要请软件开发商来写程序，从而分析这批数据的数据质量。从数据科学家提出需求，到拿到数据质量报告，有的时候要几周时间。这与我们目前的高效快节奏的社会完全不匹配。而如果数据科学家用拼图方式，化5分钟定义数据质量规则，然后执行它，15分钟后，就能得到结果了。这种自助式的数据质量探索能力，往往是数据科学家最希望的。

图4

另外，元数据管理和血缘分析，也是数据目录不可或缺的功能，他可以帮助数据科学家了解每一个数据从哪里来，到哪里去，从而更好地理解业务。

数据目录的使用

本文开头就提到，数据目录建设的目的，是为了解决业务人员和数据科学家们发现数据和使用数据的难题。那么，为数据科学家和业务人员提供一个友好的数据发现和使用的界面就尤为关键了。 Watson Knowledge Catalog 可以将数据目录，展示成一个知识图谱。业务人员可以既通过类似google的方式，通过搜索业务词汇，找到他需要的数据，也可以通过基于知识图谱的发现和探索，很方便地图形化地找到他要的数据，并且可以自助地获取这些数据。Watson Knowledge catalog自带有数据隐私保护的功能。如果某个数据已经被打上了隐私保护的标签，那么你就看不到这些数据，这些数据会被打上星号或者漂白后再展示。数据科学家获得了他要的数据后，还可以自助地优化这些数据或者利用Watson Knowledge Catalog自带的数据可视化工具，进行数据图形化展示，这些功能都极大地方便了数据科学家对数据的处理和分析。如果数据科学家需要进行下一步的AI数据建模，还可以直接将这些数据不落地的送到我们的自动化AI建模工具AutoAI进行建模或者BI 平台Cognos进行报表展现，真正实现数据目录为业务人员服务的功能。

图5

后记

智能数据目录的建设，可以使业务人员或者数据科学家，随时找到他们需要的数据，并且可以通过自助的方式，获取这些数据。这个功能，是实现Data Fabric的第一步。建设好了智能的数据目录，就为今后Data Fabric的建设打下了坚实基础。Data Fabric已经成为Gartner在2022年最热的IT趋势的第二名。企业实现Data Fabric的架构将是大势所趋，让我们先从建设智能的数据目录开始吧。

IBM_CN_Release_Author_Headshot