知识图谱

定义

图的数据结构,由节点(Point)和边(Edge)组成。描述实体之间的关系

主要用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息。

本质上就是知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。

构建

应用要建立,首先要搞知识图谱的构建(来源 业务数据和爬虫),构建时候可能会涉及到NLP

  • 实体命名识别(Name Entity Recognition)
  • 关系抽取(Relation Extraction)
  • 实体统一(Entity Resolution)
  • 指代消解(Coreference Resolution)

通常步骤

  • 定义具体的业务问题

  • 数据的收集
  • 预处理
  • 知识图谱的设计
    • 需要哪些实体、关系和属性?
    • 哪些属性可以做为实体,哪些实体可以作为属性?
    • 哪些信息不需要放在知识图谱中?

    让知识图谱尽量轻量化、并决定哪些数据放在知识图谱,哪些数据不需要放在知识图谱

    把常用的信息存放在知识图谱中,把那些访问频率不高,对关系分析无关紧要的信息放在传统的关系型数据库当中。

  • 存入知识图谱
  • 上层应用的开发,以及系统的评估

    • 基于规则 通过一些人为提前定义规则去找出潜在的矛盾点
    • 基于概率