多语言文本中的语言识别

    公开(公告)号:CN102402584B

    公开(公告)日:2015-06-17

    申请号:CN201110311472.5

    申请日:2011-10-14

    Applicant: 微软公司

    CPC classification number: G06F17/275 G06F17/30864

    Abstract: 提供用于识别多语言文本中的语言的方法、系统和介质。为了较简单的标记操作,而将文档译码为通用表示编码,然后拆分成纯文本内容部分。该部分被识别并被分配权重,其中具有较多信息的部分被给予较高的权重,具有较少信息的部分被给予较少的权重。确定部分中每一词、短语、或字符n元语法模型的语言似然性评分。为每一种语言组合部分内的语言似然性评分。然后将被组合的部分评分相加到一起以获得每一种语言的总文档评分。这样产生每一种语言的文档评分,其能够被排序以确定文档的主要语言。

    多语言文本中的语言识别

    公开(公告)号:CN102402584A

    公开(公告)日:2012-04-04

    申请号:CN201110311472.5

    申请日:2011-10-14

    Applicant: 微软公司

    CPC classification number: G06F17/275 G06F17/30864

    Abstract: 提供用于识别多语言文本中的语言的方法、系统和介质。为了较简单的标记操作,而将文档译码为通用表示编码,然后拆分成纯文本内容部分。该部分被识别并被分配权重,其中具有较多信息的部分被给予较高的权重,具有较少信息的部分被给予较少的权重。确定部分中每一词、短语、或字符n元语法模型的语言似然性评分。为每一种语言组合部分内的语言似然性评分。然后将被组合的部分评分相加到一起以获得每一种语言的总文档评分。这样产生每一种语言的文档评分,其能够被排序以确定文档的主要语言。

Patent Agency Ranking