-
公开(公告)号:CN116830099A
公开(公告)日:2023-09-29
申请号:CN202280013551.4
申请日:2022-01-20
Applicant: 微软技术许可有限责任公司
IPC: G06F16/951
Abstract: 本文描述的是与基于网页的统一资源位置(URL)的语义来推断关于网页的信息有关的技术。URL被词元化以创建词元序列。基于词元序列,针对URL的嵌入被生成,其中该嵌入代表URL的语义。基于针对URL的嵌入,推断关于由URL指向的网页的信息,网页被取回,并且基于关于网页的所推断的信息,信息从网页被提取。
-
公开(公告)号:CN107077463A
公开(公告)日:2017-08-18
申请号:CN201580053565.9
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 提供了一种自动关系提取。使用从大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法与最小人类介入和基于轻模式的方法交互式地被组合,以从非结构化、半结构化和结构化文档提取关系。通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且针对一个或多个关系类型建立对应的模型。对于建模的关系类型而言,在文档中找到感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的召回率和高精度并且允许所提取的关系的约束和归一化。
-