定义
图的数据结构,由节点(Point)和边(Edge)组成。描述实体之间的关系
主要用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息。
本质上就是知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。
构建
应用要建立,首先要搞知识图谱的构建(来源 业务数据和爬虫),构建时候可能会涉及到NLP
- 实体命名识别(Name Entity Recognition)
- 关系抽取(Relation Extraction)
- 实体统一(Entity Resolution)
- 指代消解(Coreference Resolution)
通常步骤
-
定义具体的业务问题
- 数据的收集
- 预处理
- 知识图谱的设计
- 需要哪些实体、关系和属性?
- 哪些属性可以做为实体,哪些实体可以作为属性?
- 哪些信息不需要放在知识图谱中?
让知识图谱尽量轻量化、并决定哪些数据放在知识图谱,哪些数据不需要放在知识图谱
把常用的信息存放在知识图谱中,把那些访问频率不高,对关系分析无关紧要的信息放在传统的关系型数据库当中。
- 存入知识图谱
-
上层应用的开发,以及系统的评估
- 基于规则 通过一些人为提前定义规则去找出潜在的矛盾点
- 基于概率