信息处理设备和信息处理方法

    公开(公告)号:CN103020041A

    公开(公告)日:2013-04-03

    申请号:CN201210062074.9

    申请日:2012-03-09

    Inventor: 刘绍明

    CPC classification number: G06F17/28

    Abstract: 本发明公开了信息处理设备和信息处理方法。该信息处理设备包括文本获取单元、位置对应信息获取单元、第一子文本产生单元、第二子文本产生单元、第一比较单元、第二比较单元、和翻译文本确定单元。文本获取单元获取以第一语言所写的第一文本和以第二语言所写的第二文本。位置对应信息获取单元针对每个短语获取位置对应信息。第一子文本产生单元将所述第一文本分割成多个第一子文本。第二子文本产生单元将所述第二文本分割成多个第二子文本。第一比较单元比较短语以第一语言所写时其中多个单词的布局和各第一子文本的布局。第二比较单元比较短语以第二语言所写时其中多个单词的布局和各第二子文本的布局。翻译文本确定单元确定翻译文本。

    单词对齐装置、例句对译词典及单词对齐方法

    公开(公告)号:CN101630313A

    公开(公告)日:2010-01-20

    申请号:CN200810133966.7

    申请日:2008-07-18

    Abstract: 本发明提供一种单词对齐装置、例句对译词典及单词对齐方法,提高了调用率及精度。该单词对齐装置(200)包括:存储单词与其对译、单词与其解释译词的单词对译词典(208);输入例句和作为其对译的例句对译对的输入部(202);对所输入的例句对译对进行形态素解析的形态素解析部(204);根据单词对译词典,将通过形态素解析而提取的例句对译对的单词对齐的基于词典的对齐部(210);对于未被基于词典的对齐部(210)对齐的单词进行对齐的基于单词表记的对齐部(214);多对多对齐部(218);基于二分图的对齐部(220);以及输出单词间的对齐结果的输出部(222)。

    文本检索装置及方法
    3.
    发明授权

    公开(公告)号:CN100535895C

    公开(公告)日:2009-09-02

    申请号:CN200410057211.5

    申请日:2004-08-23

    Abstract: 本发明提供了一种文本检索装置和方法,其对传统的检索手段进行改良,引入自然语言深层的语义信息进行信息比较及检索。本发明采用将语义信息同向量空间模型相结合的方法,通过赋予语义信息附加的权重来改进向量空间模型的向量特征值,以提高向量特征值同文本语义之间的相关度,实现高精度的信息比较及检索。由于采用向量特征值之间的相似度(距离)来衡量文本之间的相似度,所以其比较及检索速度等同于向量空间模型。

    文本语句比较装置
    4.
    发明授权

    公开(公告)号:CN100464326C

    公开(公告)日:2009-02-25

    申请号:CN03159365.8

    申请日:2003-09-12

    Inventor: 刘绍明

    CPC classification number: G06F17/2755 G06F17/2785

    Abstract: 本发明提供一种对文本语句间进行高精度的实时比较的文本语句比较装置。树表示部用图论的有根树来表示成为比较对象的文本语句;信息赋予部将单词信息赋予由树表示部所表示的树的各节点,将作为单词间的修饰限制关系信息的格信息赋予各边;树间距离定义部定义基于节点间对应关系和边间对应关系的树间的距离;树间距离取得部对作为比较对象的文本语句的树间,求出由树间距离定义部所定义的树间距离;树间距离应用部将树间距离应用于表示文本语句间的差别;文本语句间距离取得部根据树间距离应用部的结果,求出作为比较对象的文本语句间的距离。

    简体汉字和繁体汉字相互转换方法及其系统

    公开(公告)号:CN101131690A

    公开(公告)日:2008-02-27

    申请号:CN200610111510.1

    申请日:2006-08-21

    Abstract: 简体和繁体汉字相互转换的系统及方法。把将要被转换的简体/繁体汉字字符串划分成若干个词语/术语,并且把每一个词语/术语鉴别-定义为:其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的第一类词语/术语、以及在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的第二类词语/术语。采用映射表将第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语。采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语。将采用映射表方法和采用统计分类方法而得到的结果进行组合并输出。

    文档处理装置和文档处理方法

    公开(公告)号:CN100361493C

    公开(公告)日:2008-01-09

    申请号:CN200510055413.0

    申请日:2005-03-17

    CPC classification number: G06K9/00469

    Abstract: 文档处理装置、文档处理方法及记录其程序的存储介质。本发明提供的文档处理装置包括:输入单元,用于输入与文档的页面的图像相对应的页面图像数据;提取单元,其分析所述输入单元输入的页面图像数据,确定与该页面图像数据相对应的文档中包含的每个项目的内容,并提取项目数据,所述项目数据是表示所述内容的字符串;产生单元,用于连接由提取单元提取的项目数据并产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和写入单元,其将所述产生单元产生的名称数据与由输入单元输入的页面图像数据相关联并将所述名称数据和页面图像数据写入存储器。

    翻译处理装置及程序
    9.
    发明授权

    公开(公告)号:CN104704487B

    公开(公告)日:2017-06-13

    申请号:CN201380052218.5

    申请日:2013-06-18

    Inventor: 刘绍明

    CPC classification number: G06F17/289 G06F17/2827

    Abstract: 为了不需要针对所有语言对的每一个的对译词典信息或对语言间的翻译进行中转的中间语言,进行任意的语言间的翻译,翻译处理装置(1)将多种语言分别分配至多个分类中,针对多个分类中的每一类,从分配至该分类的语言中设定代表语言,针对多个分类中的每一类,将利用分配至该分类中的任意的语言所记述的文章、与利用分类的代表语言所记述的文章相互进行变换,将利用多个分类的任意的代表语言所记述的文章、与利用其它代表语言所记述的文相互进行变换。

    基于例句集合的翻译装置、方法以及短语翻译装置

    公开(公告)号:CN101546304B

    公开(公告)日:2013-02-06

    申请号:CN200810183795.9

    申请日:2008-12-18

    Abstract: 基于例句集合的翻译装置、方法和包含翻译装置的短语翻译装置。本发明的短语翻译装置具有:基于词典的翻译方式的基于词典的翻译部;例句完全匹配翻译方式的例句完全匹配翻译部;基于单词对齐例句的翻译方式的基于单词对齐例句的翻译部;基于例句集合的翻译部;基于例句的翻译方式的基于例句的翻译部、基于规则的翻译方式的基于规则的翻译部,输入短语依次分阶段地输入到这些翻译部。基于例句集合的翻译部从例句对译词典选择包含输入短语的多个例句对译组,分别提取多个例句对译组中各例句对译组相互之间的共同部分的组,计算提取出的多个共同部分的组针对输入短语的支持程度,输出基于支持程度选择的共同部分的组中的对译短语作为第2语言译文。

Patent Agency Ranking