对齐分层和顺序文档树以标识并行数据

    公开(公告)号:CN101490666A

    公开(公告)日:2009-07-22

    申请号:CN200780026359.4

    申请日:2007-06-28

    Applicant: 微软公司

    Inventor: M·周 C·牛 L·施

    CPC classification number: G06F17/2827 G06F17/30014 G06F17/30882

    Abstract: 基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档,并导致对并行文档的递归挖掘。

Patent Agency Ranking