https://epaper.shautonews.com/Img/2018/9/m20180908d78f02da79864ed695222b524c24008b.jpg
大数据时代,数据具有无限价值。但是,海量的数据如果不能有效地治理,也就失去了应有的价值。如何进行数据治理,以实现合规、高
http://wap.shautonews.com/content/2018-09/09/005570.html

等待处理…

如何有效地进行数据治理?

访上汽数据业务部高级数据架构师宋亚邦

本报记者 孙桐桐
2018/9/15

大数据时代,数据具有无限价值。但是,海量的数据如果不能有效地治理,也就失去了应有的价值。如何进行数据治理,以实现合规、高效地产生数据价值呢?日前,记者采访了上汽数据业务部高级数据架构师宋亚邦。

问:为什么要进行数据治理?

宋亚邦:首先,数据是有价值的。根据埃森哲发布的“2035年之前各行业的平均GDP增长率”,单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名,达4.4%。

但是,数据的应用环境是有风险的。Facebook的个人隐私泄露是今年最大的数据安全事件,直接导致Facebook市值缩水640亿美元。此外,数据的应用环境是低效的:一是数据不可知。用户不知道大数据平台有哪些数据,也不知道这些数据和业务有什么关系,虽然意识到了大数据的重要性,但平台中没有能解决自己业务所面临问题的关键数据,不知道如何寻找这些数据。二是数据不可连。在大数据时代企业应用海量数据,但企业数据之间的关联相对来说比较弱。不能对数据进行自助的探索、挖掘,数据的深层价值很难体现。三是数据不可用。数据需要一个漫长的开发过程,导致业务分析的需求难以被快速满足。四是数据不可控。没有统一的数据标准导致数据难以集成统一,没有质量控制导致海量数据难以被利用,也缺乏有效管理整个大数据平台的管理流程。通过以上的分析,我们就得出了数据治理的目标就是:合规、高效地产生数据价值。

问:如何合规、高效的产生数据价值?

宋亚邦:一共可以分为四个阶段。

第一阶段,要全面梳理企业信息。盘点上汽集团的数据资产,在这个基础上,我们设计了上汽集团的数据治理平台,植入了很多管理理念。数据治理不仅是数据治理团队的事情,更多人还是需要业务技术治理、相关协作、共同努力才能提升。

第二阶段,要对数据分类,建立主题域模型。对集团的信息进行分类,做一个主题领域细分的模型。这个就有点类似于图书馆的一个目录检索。

第三阶段,制订数据标准,提升数据质量。数据标准体系分为基础类、管理分析类和专有类数据标准三部分。有了这些标准后,才能对数据质量进行核查。

第四阶段,数据仓库分层设计,主数据标签体系。分层的初衷是为了给数据分析挖掘人员提供便利,做算法的人员尽可能少地去做清理数据的内容,直接用顶层清洗好的数据去做有价值的事情。

问:怎样才能确保数据质量?有哪些难点?

宋亚邦:在制订了完善的数据标准之后,我们会对数据质量进行核查。我们整理的数据质量的相关问题共分为四类:个人信息问题、技术问题、流程问题和管理问题。在这四个类型中,我们又对每个部分进行细分,生成数据质量管控的“鱼骨图”。

其实,我们还对数据质量管控的流程进行了再设计。首先是注册数据资产。第二步就是对数据进行剖析,这样可以知道里边每张表的每个字段到底有多少个空值、分布情况是怎样的、与哪些表有关联。最后生成模型,进行监控改进。目前,这个流程已经沉淀到我们的数据治理平台当中。

我们的下属企业的信息化水平差别很大。在上汽集团内面临的困难就是面对这么多差别很大的企业,怎么样去做一套通用的东西。我们也想通过提供一些产品化的东西,像数据湖、舆情分析产品为下属企业提供工具。集团也想担负起数据共享平台建设的一个作用,能把大家给撮合起来。

问:上汽集团数据治理达到了什么水平?有哪些创新?

宋亚邦:如果和金融行业或者管理规范的互联网公司相比,上汽其实还有不小的差距。但是在制造行业,上汽相对来说是领先一步的。从我前面给出的数据能力成熟度评估来看,上汽两年前的得分是2.25分。这个分数大概处于基本管理的阶段。经过这两年时间的建设,我们现在已经迈入了3.0阶段,进入了主动管理阶段。

对上汽而言,最大的创新可能就是成立像我们这样一个团队。据我所知,制造行业有这么大魄力的企业不多。同时,我们在工作过程中也进行一些微创新。比如,软件评估能力成熟度模型、数据能力成熟度模型、设计自己的数据治理平台等。

另外,还可以利用人工智能,我们现在用了一个神经网络的自编码器,在数据入库的时候提取字段的特征,如果要做关联匹配,只需要计算两个特征码的相似度就可以了。此外,虽然我上面提到四个阶段,其实还有一个隐藏的第五个阶段,就是智能化的企业知识图谱,为企业提供数据价值。用知识图谱的人工智能技术就是将数据沉淀成知识,形成企业的知识图谱,提供从关系的角度去分析问题的能力。

数据产品和应用案例

上汽数据湖平台关键模块:数据资产治理

上汽数据湖平台是国内首个从制造业信息化特点出发、结合汽车行业应用场景的大数据平台。原始数据无需加工整合,便可直接入湖,由最终使用者按照自己的需要进行数据处理。

由于使用者仅通过数据湖接入各类数据,而未对数据做出合理的治理与清洗,造成数据碎片化、不合规、质量较低等问题,会导致数据湖变成“数据沼泽”。

可见,在数据湖内设置“分类器”“过滤器”尤为重要,这关系着数据湖内生态数据的质量。数据资产治理模块是上汽集团数据业务部在数据湖产品之上为保障数据质量、统一数据标准、实现数据商业编目而设计的重要模块。

上汽数据湖的数据治理模块提供了数据发现、数据轮廓、数据监控、数据质量、数据血缘、数据标准、元数据管理、数据搜索等工具和方法,初步实现数据可感知、可控制、可融合、治理过程可管控四项目标。

数据可感知:数据发现、数据轮廓功能通过为数据编目、分类、打标签,可以让用户观察到数据湖中数据的变化情况,了解数据定义及商业用途,回答用户关于数据湖到底有多大、湖内有哪些数据等问题。

数据可控制:用户可通过数据监控功能对特定数据添加多种监控模型,保证数据始终在其合理可控的范围之内;同时,数据治理模块提供超阀值、安全访问和数据未更新等预警信息,及时反馈湖内数据质量的变化情况,促使用户采取相应措施,避免数据质量恶化。

数据可融合:元数据管理、数据血缘等功能通过管理业务元数据、分析数据血缘、分析数据关联,向用户提供了一个理解数据商业背景、数据流向和潜在数据关系的工具,为将来可能进行的业务分析和商业变现提供决策支持。

数据治理过程可管控:数据治理模块提供数据质量动态监控、数据质量报告和数据质量预警等功能,追踪数据规模及变化趋势,及时反馈数据治理效果。

上篇:没有了
下篇:没有了
分享到

© 2019 上海汽车报社有限公司

备案号:沪ICP备16052313号-2

↑ TOP