首页 > 人工智能 > Distant Supervision for Relation Extraction Without Labeled Data

Distant Supervision for Relation Extraction Without Labeled Data

 

从自由文本中进行关系抽取,是构建大规模知识图谱的重要方法。关系是一个「关系,实体A,实体B」这样的三元组,比如某人受雇于某组织,某人导演了某部电影,等等。

传统的自动关系抽取方法包括:

  1. 有监督的方法:对句子中的关系进行人工标注,然后抽取词法、句法、语义特征,训练有监督的分类器,对测试集中的实体关系进行预测;
  2. 无监督的方法:从大量文本中,对实体进行标注,通过聚类等方法抽取实体之间的关系字符串。这种方法可以抽取非常大量的关系对,但是抽取结果很难映射到知识库中。
  3. 利用少量的种子实例或模板,进行bootstrap的学习。将已有的实例应用在大规模语料中,抽取出新的模板;然后用新的模板抽取出更多的实例,如此迭代。但抽取结果准确率较低,还可能发生语义转移。

Distant supervision的方法综合了以上几种方法的优点。它利用Freebase提供的大量实例关系对,来生成训练集,训练分类器,利用分类器从自由文本中挖掘新的实体关系。

在生成训练集阶段,首先对大量文本中的句子进行命名实体标注,如果一句话中有两个实体,并且它们是Freebase中的一个关系对,则从句子中提取特征向量,将关系做为类别,组成一个分类训练样本。如果两个句子表达的「关系,实体1,实体2」完全一致,则将这两个句子的特征合并在一起,组成一个更大的特征向量。

在上面得到的训练集基础上,训练多类逻辑回归分类器。

在测试阶段,先对句子中的命名实体进行标注,抽取其中的命名实体对和特征。如果多个句子的命名实体对一样,则将它们的特征合并在同一个特征向量中。然后利用逻辑回归分类器,对关系名称进行识别。

这种方法的一个好处,是可以综合多处文本,对一个实体对进行判断。

用到的特征包含词法特征、句法特征和命名实体标注特征。

词法特征描述了出现在实体对之间,以及周围的特征词汇。包括:

  1. 实体对之间的词串;
  2. 这些词语的POS(part-of-speech)标记;
  3. 哪个实体出现在前;
  4. 实体1左边k个词和它们的POS标记;
  5. 实体2右边k个词和它们的POS标记。

句法特征是利用依存句法解析器(dependency parser) MINIPAR对句子进行解析,然后从解析树中提取实体的依赖路径。依存句法解析的结果是对句子中的词和词组,利用有向的依存关系边进行连接。具体特征包括:

  1. 两实体之间的依存路径(dependency path);
  2. 对每个实体,增加一个window node做为特征。window node是指与其中一个实体连接,但并不在依存路径中的节点。

除此之外,两实体的POS(命名实体)标记也做为特征加到特征向量中。由于数据量大,使用联合特征来提高精度。联合特征会让特征的命中率降低,但在数据量大的情况下,特征命中率的问题不严重。

根据论文数据,这种方法抽取通用的关系对,抽取10000个实例的102个关系,准确率约为67.6%。

最后编辑:
作者:linecong
这个作者貌似有点懒,什么都没有留下。

留下评论

你的email不会被公开。