基于知识的实体检测和消歧

    公开(公告)号:CN103177075A

    公开(公告)日:2013-06-26

    申请号:CN201210582225.3

    申请日:2012-12-28

    Applicant: 微软公司

    CPC classification number: G06F17/30867 G06F17/30687 G06F17/30864

    Abstract: 本发明描述了基于实体的搜索系统,其检测并且识别基于因特网的内容中的实体并且使用这个识别来组织搜索结果。所述系统将一个或多个实体标识符与网页相关联,并且将这个信息作为所述页面的元数据存储在搜索引擎索引中。这个元数据将在搜索引擎结果页面(SERP)中使能基于实体的查询以及丰富的数据呈现,包括按实体对结果进行分组、按一个或多个特定实体对结果进行过滤、或者基于实体的用户偏好对搜索结果进行重新排名。因此,所述基于实体的搜索系统允许用户标识所述用户有兴趣查找的特定实体,并且允许接收与该实体直接相关的搜索结果。

    多语言文本中的语言识别

    公开(公告)号:CN102402584A

    公开(公告)日:2012-04-04

    申请号:CN201110311472.5

    申请日:2011-10-14

    Applicant: 微软公司

    CPC classification number: G06F17/275 G06F17/30864

    Abstract: 提供用于识别多语言文本中的语言的方法、系统和介质。为了较简单的标记操作,而将文档译码为通用表示编码,然后拆分成纯文本内容部分。该部分被识别并被分配权重,其中具有较多信息的部分被给予较高的权重,具有较少信息的部分被给予较少的权重。确定部分中每一词、短语、或字符n元语法模型的语言似然性评分。为每一种语言组合部分内的语言似然性评分。然后将被组合的部分评分相加到一起以获得每一种语言的总文档评分。这样产生每一种语言的文档评分,其能够被排序以确定文档的主要语言。

    多语言文本中的语言识别

    公开(公告)号:CN102402584B

    公开(公告)日:2015-06-17

    申请号:CN201110311472.5

    申请日:2011-10-14

    Applicant: 微软公司

    CPC classification number: G06F17/275 G06F17/30864

    Abstract: 提供用于识别多语言文本中的语言的方法、系统和介质。为了较简单的标记操作,而将文档译码为通用表示编码,然后拆分成纯文本内容部分。该部分被识别并被分配权重,其中具有较多信息的部分被给予较高的权重,具有较少信息的部分被给予较少的权重。确定部分中每一词、短语、或字符n元语法模型的语言似然性评分。为每一种语言组合部分内的语言似然性评分。然后将被组合的部分评分相加到一起以获得每一种语言的总文档评分。这样产生每一种语言的文档评分,其能够被排序以确定文档的主要语言。

Patent Agency Ranking