融合用户信息生成评论摘要的方法及装置

    公开(公告)号:CN109190109A

    公开(公告)日:2019-01-11

    申请号:CN201810833407.0

    申请日:2018-07-26

    Inventor: 宗成庆 李俊杰

    Abstract: 本发明属于情感分类技术领域,具体提供了一种融合用户信息生成评论摘要的方法及装置,旨在解决现有技术忽略用户信息导致生成的评论摘要不准确的问题。为此目的,本发明提供了一种融合用户信息生成评论摘要的方法,包括基于预先获取的评论信息以及相应的用户信息和评论标题获取评论向量;基于预先构建的评论摘要生成模型并根据评论向量,获取评论向量对应的评论摘要;其中,评论摘要生成模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。基于上述步骤,本发明提供的方法可以根据不同用户关注评论信息中不同的评价对象,充分考虑不同的用户的用词习惯的差异性,生成准确的评论摘要。

    文本蕴含识别方法及装置
    142.
    发明公开

    公开(公告)号:CN109165300A

    公开(公告)日:2019-01-08

    申请号:CN201811014746.2

    申请日:2018-08-31

    Abstract: 本发明属于自然语言技术领域,具体提供了一种文本蕴含识别方法及装置,旨在解决现有技术在文本蕴含识别过程中存在大量噪声的问题。为此目的,本发明提供了一种文本蕴含识别方法,包括获取待识别文本蕴含句对中源句子和目标句子的词汇向量集合,利用预设的第一感知器获取源(目标)句子中每个词与目标(源)句子之间的比较向量;基于预设的语义关系推理模型获取源(目标)句子中每个词与目标(源)句子之间的推理向量;利用预设的第二感知器获取推理向量对应的门结构权重;根据推理向量和门结构权重进行加权融合,将加权融合的结果用于预测文本蕴含句对的语义蕴含关系。基于上述步骤,本发明提供的方法同样具有提高预测结果准确率的有益效果。

    融合中文单词内部结构信息的句子表示的构建方法及系统

    公开(公告)号:CN107423284A

    公开(公告)日:2017-12-01

    申请号:CN201710449875.3

    申请日:2017-06-14

    Abstract: 本发明涉及自然语言处理技术领域,具体提出一种融合中文单词内部结构信息的句子表示的构建方法及系统,旨在解决单词内部结构信息利用率低的问题;所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。本发明可以提高单词内部结构信息的利用率。

    一种汉语隐式篇章关系识别方法

    公开(公告)号:CN105955956A

    公开(公告)日:2016-09-21

    申请号:CN201610294189.9

    申请日:2016-05-05

    Abstract: 本发明公开了一种汉语隐式篇章关系识别方法,所述方法包括以下步骤:步骤1,对汉语隐式篇章关系论元对进行自动分词处理,得到自动分词结果;步骤2,在得到的汉语隐式篇章关系论元自动分词结果的基础上,学习汉语隐式篇章关系论元的特征表达;步骤3,基于得到的特征表达,通过基于最大间隔的神经网络模型对论元间的汉语隐式篇章关系进行建模;步骤4,利用得到的神经网络模型对汉语隐式篇章关系进行识别。本发明能够对汉语中的隐式篇章关系进行较准确地识别。经过在汉语篇章树库上的实验验证,相对于已有的英语隐式篇章关系识别方法,本发明方法在汉语隐式篇章关系识别上得到准确率更高的识别结果。

    面向计算机辅助翻译的输入方法与装置

    公开(公告)号:CN104462072A

    公开(公告)日:2015-03-25

    申请号:CN201410678005.X

    申请日:2014-11-21

    Inventor: 宗成庆 黄国平

    Abstract: 本发明是一种面向计算机辅助翻译的输入方法,包括步骤S1:对源语言句子进行分词;步骤S2:获得分词后的源语言句子对应的机器翻译译文候选列表和最优机器翻译译义候选;获得多元文法提示短语;步骤S3:响应按键选择多元文法提示短语或者接收输入按键序列,获得输入法短语候选;步骤S4:响应用户按键选择多元文法提示短语或者输入法短语候选后,获得多元文法提示短语,重复步骤S3,直到用户完成录入源语言句子的译文。本发明还提供面向计算机辅助翻译的输入装置,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面。本发明充分利用机器翻译知识,能使按键节省率至少上升11.04%,大幅提升人工翻译的效率。

    构建树结构及基于树结构的机器翻译系统的方法

    公开(公告)号:CN102662932A

    公开(公告)日:2012-09-12

    申请号:CN201210068782.3

    申请日:2012-03-15

    Inventor: 宗成庆 翟飞飞

    Abstract: 本发明涉及一种构建树结构及基于相应树结构的机器翻译系统的方法,所述方法包括如下步骤:对所述双语语料中的双语句子对进行分词、词性标注和词对齐;根据所述词对齐的结果,对所述双语句子对进行双语切分,生成比双语句子对长度更短的双语子句对,并对生成的所述双语子句对重新进行词对齐;根据所述双语子句对词对齐的结果,进行子句合并以获得所述双语句子对的词对齐,并为所述双语句子对构造压缩森林;从所述压缩森林中选择适合于机器翻译的树结构。本发明无需任何句法树资源,只要有词性标注资源的语言对,就可以构建基于树结构的翻译系统。

    一种基于非连续短语的泛化重排序统计翻译方法及装置

    公开(公告)号:CN101685441A

    公开(公告)日:2010-03-31

    申请号:CN200810222771.X

    申请日:2008-09-24

    Inventor: 宗成庆 何彦青

    Abstract: 一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约1.54%and 0.66%的BLEU打分。

    一种基于语块的中文机构名翻译方法及装置

    公开(公告)号:CN101075230A

    公开(公告)日:2007-11-21

    申请号:CN200610011923.2

    申请日:2006-05-18

    Inventor: 宗成庆 陈钰枫

    Abstract: 本发明公开一种基于语块的中文机构名翻译方法及装置,直接从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译系统的整体性能。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译系统中,按BLEU打分标准,翻译系统的整体性能相对提高约13.3%。

Patent Agency Ranking