-
公开(公告)号:CN107077463A
公开(公告)日:2017-08-18
申请号:CN201580053565.9
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 提供了一种自动关系提取。使用从大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法与最小人类介入和基于轻模式的方法交互式地被组合,以从非结构化、半结构化和结构化文档提取关系。通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且针对一个或多个关系类型建立对应的模型。对于建模的关系类型而言,在文档中找到感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的召回率和高精度并且允许所提取的关系的约束和归一化。