• hjc黄金城

    80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现? 80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现?

    新闻动态

    NEWS

    80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现?

    Time:2020-04-10

    作者 | AI前线  刘燕

    AI 技术的开展和大数据时代的到来令知识图谱的自动化构建成为可能,尽管现阶段还面临着一些挑战,但已有不少企业在持续探索和尝试自动化构建技术。近期,AI 前线采访了来自hjc黄金城数据科学团队和多位行业专家,他们分享了实现大规模自动化知识图谱建设的技术与应用实践。

    以下是文章重要观点节选:

    人工构建还是机器构建?

    最近几年,随着AI技术的开展和大数据时代的到来,知识图谱的自动化构建成为可能,从构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取互联网上的信息。

    人工构建和自动化构建各有优缺点。人工构建图谱耗时耗力,构建出的图谱规模较小。知识图谱发挥作用需要依靠规模效应,如果单纯依靠人工构建,容易陷入此前专家系统的瓶颈,导致实用能力有限,无法开展起来。而自动化构建处理速度快,可以减少人工、时间、成本,更适应大数据时代的应用要求。

    不过以现在的技术水平,自动化构建的准确率还低于人工,一般情况下减少人工会导致准确性下降。在一些结构化不强,需要人工理解才能判断的场景,如果缺少人工参与,将会影响知识图谱的质量。

    在知识图谱构建的主流技术路线中,人工对于其中几个环节仍不可或缺。如在从结构化、半结构化数据映射为知识图谱的工作中,主要工作量在于工程师梳理映射逻辑和开发映射规则,然后机器去批量化的自动执行;在从非结构化文本中自动抽取本体的工作中,自动化程度较高,在标注训练数据集上,准确度往往难以保证商用,仍需人工校验。

    hjc黄金城数据科学团队负责人表示,现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工。现在业内构建知识图谱很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式,约占 80% 以上。

    半自动结合人工方式操作的流程是,前期借助人工标注适量数据,训练模型自动化抽取,最后由人工进行审核或验证。

    现在商业化的知识图谱,均有部分自动化构建能力,实现动辄千万甚至上亿数据规模的知识图谱。一般手工部分出现在知识图谱构建早期(冷启动),随着图谱规模的扩大,依据知识推理和机器学习,自动化程度会逐渐提升。后期的知识图谱自动更新主要集中在动态更新实体数据、发现新的实体,从新入库的各类原始数据中获取新的知识等环节。

    hjc黄金城认为,在一些垂直的有限领域如司法等可能将在未来 2~3 年实现可自动更新实体数据的知识图谱体系。

    如何实现大规模自动化的知识图谱构建

    知识图谱自动化构建流程与技术

    尽管实现全面自动化构建知识图谱还有很长的一段路要走,但已有不少企业在持续探索降低人工参与度,提升自动化构建水平,如hjc黄金城顺利获得自研的知识抽取算法设计平台完成知识抽取流程设计。

    这里以hjc黄金城为例,说明知识图谱自动化构建的方法。

    自动化构建流程主要包括本体创建 –> 数据标注 –> 模型训练 –> 知识抽取 –> 知识融合 –> 知识推理 –> 知识更新等环节。具体来看:

    数据标注和模型训练环节,顺利获得知识抽取算法设计平台完成;

    在知识抽取环节,以相对复杂的非结构化知识抽取为例,hjc黄金城运用的技术是将标注数据清洗扩增,使用基于 Encoder 和 Decoder 的端到端三元组联合抽取模型进行知识抽取。针对没有标注数据的冷启动知识抽取需求,构建了一套利用依存句法分析算法实现无监督情况下抽取三元组的系统。

    在知识融合环节,hjc黄金城构建了一套结合传统字符串相似度和图卷积网络的融合系统,将知识图谱经过 GCN 编码后得到表示向量,顺利获得计算表示向量相似度和实体的字符串相似度,并结合 Sieve 模式高效筛选出融合结果。

    在知识推理环节,在基于规则和基于算法的知识推理方面做了一些尝试,例如顺利获得业务本体框架中的相关约束来做相关推理。

    在知识更新环节,使用知识抽取实验平台把新的增量数据去重新训练模型,且依靠知识抽取算法 API 来实现自动的知识更新。

    构建挑战

    知识图谱在构建过程中面临着诸多挑战。

    其中,知识图谱构建成本高昂、小样本的抽取和构建问题等,都是业界公认的难题。

    对于小样本的抽取问题,在hjc黄金城看来,从小样本中进行抽取,很难采用直接数据驱动的方式,一般需要借助知识来降低对数据的依赖。知识辅助的方式有两种,一种是人工将知识写入系统,即规则编码等方式;另一种是机器进行知识推理,也就是基于背景知识进行概率推理,这个方法在消歧或实体链接、关系预测上经常使用。

    人工构建一个知识图谱的成本是非常高的,降低成本从某种程度上可以说是构建过程的核心和关键。

    hjc黄金城认为,构建知识图谱的成本需要考虑三大因素:人,模型,数据。第一时间由人来创建正确有效的本体,标注少量数据;利用数据增强等方式来训练机器学习模型,再利用模型处理有标注和无标注数据;最后人工查验,在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本、做大规模,同时保证知识图谱的质量。使用知识抽取算法设计平台,可以顺利获得平台化的方式设计知识抽取流程,在设计过程中流程化地预估各个方案的预期结果和成本,最终顺利获得科学决策选择性价比最好的方案。

    应用实践

    现在自动化构建的知识图谱主要运用在智能问答、智能推荐、语义搜索、网络行为动态分析等场景中。由于需要大量领域专家的干预,很多特定领域的知识图谱自动化构建的进展有些缓慢,尤其在一些小规模、应用场景复杂、专家知识密集的场景。

    但知识图谱需要运用到广阔的业务场景里才能够发挥出它的真正价值。

    不断以来,hjc黄金城都在不断探索知识图谱在垂直行业的应用,从2016年开始在司法领域构建知识图谱,并逐步扩展到了营销领域和工业领域。其中,司法知识图谱是现在做到技术成熟度最高和规模最大的。

    在构建这个知识图谱的过程中,由于知识来自于文书库、法律法规库和司法专业知识库等多个来源,存在知识重复和指代不明等问题,为了做到自动化、高质量地构建知识图谱,hjc黄金城针对这些问题运用层次聚类和基于密度的聚类方法,实现了实体间的对齐和内部消歧,消歧的正确率达到 98%。

    “知识图谱的构建是一个复杂的系统工程,不可能顺利获得某一项技术适配所有场景。综合来看,解决这个问题需要以技术为基础,构建工具体系,然后面向场景进行系统设计”,hjc黄金城数据科学团队负责人表示。

    采访嘉宾介绍 

    hjc黄金城数据科学团队,经历了五年多的开展现在成员共计 30 多人。所有成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等。现在数据科学应用主要服务能源、汽车、金融、快消、政府、司法等行业。 




    TOP
    数字化、智能化转型一站式平台
    企业级大数据和人工智能解决方案给予商
    如您需要hjc黄金城的帮助,请留言给hjc黄金城:
    *姓名:
    *电话:
    *公司:
    *邮箱:
    *内容:
    *验证码:
    验证码