从非结构化资源挖掘短语对

    公开(公告)号:CN102439596B

    公开(公告)日:2015-07-22

    申请号:CN201080023190.9

    申请日:2010-05-14

    Applicant: 微软公司

    Abstract: 挖掘系统应用查询来从非结构化资源检索结果项。非结构化资源可以对应于可通过网络访问的资源项的储存库。被检索的结果项可以对应于与资源项相关联的文本段(例如,句子段)。挖掘系统通过过滤结果项和建立相应的结果项对,来产生结构化训练集。训练系统可以使用该训练集来产生统计翻译模型。翻译模型可以用于单语种上下文中,以在单一语言的语义相关的短语之间翻译。翻译模型也可以用于双语上下文中,以在以两种相应的语言表示的短语之间翻译。还描述了翻译模型的各种应用。

    激励描述集合
    2.
    发明公开

    公开(公告)号:CN102567311A

    公开(公告)日:2012-07-11

    申请号:CN201110358464.6

    申请日:2011-10-31

    Applicant: 微软公司

    CPC classification number: G06F17/2827

    Abstract: 本文描述了激励描述集合。本公开一般描述了用来通过向(例如,群众外包服务的)贡献者显示诸如视频剪辑之类的激励来收集文本和/或语音描述的技术。用每个贡献者选择的语言的描述具有相同激励,并且由此彼此相关联。虽然每个贡献者可以是单语的,但是该技术允许对近似双语数据的收集,因为不同贡献者中可表示一种以上的语言。描述可被用作用于训练机器翻译引擎的翻译数据,以及用于训练机器释义系统的释义数据(按相同语言进行编组)。还描述了经由差异性度量来评估机器释义系统的质量。

    基于web的搭配错误证明

    公开(公告)号:CN101568918A

    公开(公告)日:2009-10-28

    申请号:CN200780044668.4

    申请日:2007-12-05

    Applicant: 微软公司

    CPC classification number: G06F17/3061 G06F17/273 G06F17/277 G06F17/2845

    Abstract: 可以使用本地和包括web在内的基于网络的语料库来自动地证明搭配错误。例如,根据一说明性实施例,来自文本样本的一个或多个搭配可以与诸如web的内容等语料库进行比较。搭配被标识为其在该语料库中是否是不被赞同的。经由输出设备来提供搭配在该语料库中是否不被赞同的指示。随后可以采取诸如搜索并经由用户输出提供可能适当的单词搭配的附加步骤。

    基于web的搭配错误证明

    公开(公告)号:CN101568918B

    公开(公告)日:2012-04-04

    申请号:CN200780044668.4

    申请日:2007-12-05

    Applicant: 微软公司

    CPC classification number: G06F17/3061 G06F17/273 G06F17/277 G06F17/2845

    Abstract: 可以使用本地和包括web在内的基于网络的语料库来自动地证明搭配错误。例如,根据一说明性实施例,来自文本样本的一个或多个搭配可以与诸如web的内容等语料库进行比较。搭配被标识为其在该语料库中是否是不被赞同的。经由输出设备来提供搭配在该语料库中是否不被赞同的指示。随后可以采取诸如搜索并经由用户输出提供可能适当的单词搭配的附加步骤。

    从非结构化资源挖掘短语对

    公开(公告)号:CN102439596A

    公开(公告)日:2012-05-02

    申请号:CN201080023190.9

    申请日:2010-05-14

    Applicant: 微软公司

    Abstract: 挖掘系统应用查询来从非结构化资源检索结果项。非结构化资源可以对应于可通过网络访问的资源项的储存库。被检索的结果项可以对应于与资源项相关联的文本段(例如,句子段)。挖掘系统通过过滤结果项和建立相应的结果项对,来产生结构化训练集。训练系统可以使用该训练集来产生统计翻译模型。翻译模型可以用于单语种上下文中,以在单一语言的语义相关的短语之间翻译。翻译模型也可以用于双语上下文中,以在以两种相应的语言表示的短语之间翻译。还描述了翻译模型的各种应用。

Patent Agency Ranking