18luck新利官网

大数据知识图谱实战课堂丨大数据关系信息挖掘:知识图谱应用案例分享

来源:大发 | 时间:2018-10-20 人气:2858
  •   》主题沙龙上,联想创投(香港)机器智能实验室高级产品经理钱广锐跟大家分享了《

      联想创投主要投资机器智能领域,比如深度学习、机器学习等前沿科技,目前人工智能包括四个部分:机器学习,深度学习,语言处理,知识图谱。今天跟大家分享几个案例,包括我们的想法和经验。

      宝钢的项目主要是用大数据处理的,更核心是用大数据结合人工智能里面机器学习的方法模型做预测,包括预测宝钢每天生产多少钢材,能够降低库存,提升供应链效率等。最终希望利用用户大额数据和现在使用的大数据平台,大数据知识图谱结合外部数据精准预测每个地区,或具体产品的需求量。

      首要工作就是分析用户的数据,越核心的数据价值越高,比如用户产量和客户销售需求。外面一层数据是宏观经济行业数据,包括汽车产量销量。所有工作都是希望使用这些数据,帮助用户做决策。决策的过程就是目标。为了构造出数据分析的模型,数据分析模型的构建有很多方法,我们使用机器学习、大数据平台和数据扒取平台做精准模型。

      机器智能数据构建流程是将内部数据和外部数据,通过大数据平台,通过模型分析帮助用户建立模型的过程。其中的机器学习和算法层就是通过清洗过的有价值的数据,比如有些外部数据,包括某辆车关注度、论坛关注度等,通过标签化、数字化工作,或者比较规范的格式使模型识别出来,越往外面,数据价值越低。为了提高准确度,1%、2%不采用这个方式。业务理解和数据理解全部做完,通过深度学习,不断迭代模型,最终得到比较好的预测模型。

      造一辆车需要不同的钢材,首先要预测各种钢的分布,预测每个阶段每个季度,车场市场上,一辆车大概需要几种材料,就能很好预测出某种高的需求,第一个预测钢的需求,利用模型可以直接输出,帮助公司预测未来各种实际需求,最后结果的预测准确度在90%以上。通过这个过程,通过机器学习,或是说通过人工智能,第一件事情就是帮助用户预测某一个产品的需求量,不仅是钢材,任何的市场需求行为都可以预测。

      第二个预测出每个生产厂商的订货量。模型通过市场的需求、历史记录等进行预测,最后结果的预测准确度也在90%以上。

      另外,我们希望帮助用户控制供应链,能够较好的预测出实际效果,发现特殊行为,进行用户忠诚度分析。最后发现用户对价格、物流、对资金比较敏感,并对这些用户行为打分,得出用户对钢材、汽车需求的描述,以及忠诚度分析。用户可以进行销售策略调整等决策。

      通过使用融合模型,结果预测准确率区域分品种订货量在90%几以上。每一种典型汽车生产上,按照车型辆数预测87.24%,这个精度能够帮用户节省很多工作。

      知识图谱是是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的实体,每条边为实体与实体之间的关系。其中,点与点之间的关联,举一个比较简单的例子,我晚上坐G10这趟火车从北京到上海,有可能建立起一些知识的实体。我个人、火车、G10、北京上海,知识图谱可以把连接起来,我、上海、北京、坐这辆高铁都是可以将虚线连起来。

      知识图谱是关系表达的知识结构,解决数据库里有一个信息就是关系的信息,所以知识图谱是把不同种类的信息联系在一起,而且得到一个关系网络,从提供关系角度分析问题,当然在很多的实际场景中会有它实实在在的应用。对企业、个人和大数据来说,这个已经成为主要的解决手段。在很多数据挖掘,尤其模型构建的时候已经成为很重要的因素。

      可以做哪些工作呢?比如,全文搜索的工作,跟全国数据库有点类似,能够做关系的搜索,比如搜上海和北京,那关系有可能出来我个人,我从上海到北京,从关系搜索搜索到你想要的东西。隐藏关系搜索,今天从北京到上海,明天从上海到南京,搜索会搜索到南京,这是一个隐藏关系,因为我并没有直接从北京到南京,但是我也通过这种关系搜索能找出隐藏关系,这也是知识图谱比较强的一个效果。还有全局报表,时空数据交互探索,关系搜索等。时间和空间能够表示你时间轴上发生什么事情,可以通过时空数据连接起来,比如说我今天从北京到上海,明天从上海到南京,跟南京时空关系隔了一天时间,知识图谱能够解决关系数据联系的结构。

      知识图谱能做的很多工作,其中较简单的是个人社会关系网络。使用图数据分析平台,通过对身份ID、信用卡/银行卡交易、通讯记录、住宿信息、工作单位信息等来分析获取重点监管的“联系人网络图”,“事件时空数据时序”信息,从而为个人社会关系调查,异常行为分析等监管工作提供更详细、精确的预测分析模型。通过“子群分析”,可以判断“团伙”、“宗派”等团体行为。

      知识图谱还可用于工商数据挖掘分析。上海工商数据里面有结点数很多,比如说公司935989家公司,里面有人,结点就是这个人是不是公司的董事长或持股人;里面的“边”表示谁是人员,是董事长还是投资人,有没有分支机构,投资做了担保,里面有多少股东,两个实体之间的关联就是“边”。

      知识图谱可以通过“连通子图”准确抓住其中的关键担保群和担保企业,防止互保联保的风险快速传染,用于对担保数据进行风险分析。

      在为香港公司做交叉尺骨的分析中,每一个点代表不同的公司,那每一条线代表对方是不是交叉池。图中红色的点代表一家公司,黄色的点是交换持股非常大的群体,这是一个小的交叉尺骨小集群,特别关注这个小集群是因为,这几家公司在某一个时间段股票暴跌,事后分析发现这几家公司是互相持股的。一个公司出现了金融或者资金的问题,导致暴跌,相关的所有的公司因为资金互相持股问题也会带来连锁效应。重点监控监管,能够较好的找出风险源头,也可以对政府监管机制提供比较好的决策作用。

      比如说和自然语言分析结合起来,可以进行语言实体关系提取,进行实体提取,关系提取和标注工具应用。还可以做自然语言处理加上机器问答工作,比如问答机器人,基于图谱知识回答消费者问题。

      我们的机器学习平台DeepNEX AI-aaS,为用户提供“全栈”机器智能领域应用。包括DeepNEX深度学习平台、机器智能工具组件和行业模型组件。返回搜狐,查看更多

Baidu