-
公开(公告)号:CN104199813A
公开(公告)日:2014-12-10
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN101908055B
公开(公告)日:2013-02-13
申请号:CN201010118656.5
申请日:2010-03-05
IPC: G06F17/30
Abstract: 一种信息过滤系统,涉及到一种信息过滤技术。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题,本发明的优化lam%的信息分类阈值的设定方法为:设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。本发明的信息过滤系统中包括用于存储垃圾信息和正常信息的特征及其权重信息的特征权重库;用于根据用户的反馈信息调整/更新特征权重库中的特征及其权重的训练器;用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息的过滤器。
-
公开(公告)号:CN104731774B
公开(公告)日:2018-02-02
申请号:CN201310722090.0
申请日:2013-12-24
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/289
Abstract: 本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。
-
公开(公告)号:CN104199813B
公开(公告)日:2017-05-24
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN101540017B
公开(公告)日:2016-08-03
申请号:CN200910071908.0
申请日:2009-04-28
IPC: H04L12/58
Abstract: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。
-
公开(公告)号:CN102663123B
公开(公告)日:2014-09-03
申请号:CN201210118461.X
申请日:2012-04-20
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。
-
公开(公告)号:CN102663123A
公开(公告)日:2012-09-12
申请号:CN201210118461.X
申请日:2012-04-20
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。
-
公开(公告)号:CN101520779A
公开(公告)日:2009-09-02
申请号:CN200910071818.1
申请日:2009-04-17
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 一种机器翻译自动诊断评价方法,属于机器翻译评价技术。它解决了现有翻译系统的评价方法中存在的只能考察翻译系统对特定单语现象的处理能力、和不能够获得翻译系统的缺陷的问题。它的具体过程为:首先将参考译文和系统译文进行词汇级匹配,然后对于每个目标语词汇利用翻译知识来寻找可能的源语言词汇,然后进行错误识别,并针对每个错误,采用源语言与目标语之间的关系判定其双语类型,进而利用双语特征与翻译知识的关系判定错误的成因。本发明所述的双语错误用源语言句子、参考译文及系统译文中相关联的词汇来表示,并在诊断过程中引入了词汇的语言学特征。本发明的方法能够更加直接的帮助开发者找到并解决翻译系统的内在缺陷。
-
公开(公告)号:CN101699432A
公开(公告)日:2010-04-28
申请号:CN200910073206.6
申请日:2009-11-13
IPC: G06F17/30
Abstract: 基于排序策略的信息过滤系统,涉及到信息过滤技术领域。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。本发明的信息过滤系统由训练模型、过滤器和特征权重库组成,所述过滤器对新信息单元进行识别的方法为:将信息过滤问题转化成排序问题,针对核心评价指标1-ROCA进行优化,建立基于排序策略的信息过滤模型,所述过滤模型采用排序逻辑回归学习算法,并综合运用基于TONE策略的参数权重更新算法和重采样技术获得权重参数,进而获得新信息单元的预测分值,根据预测分值与设定阈值的对比结果,判定新邮件的属性。本发明的方法可以应用到各种信息过滤、信息推送系统中。
-
公开(公告)号:CN102779193A
公开(公告)日:2012-11-14
申请号:CN201210244519.5
申请日:2012-07-16
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 自适应个性化信息检索系统及方法,涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉,伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,及根据特征矩阵获得训练参数预测模型的数据输入子系统;用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;用于以预测参数组织当前查询、历史查询和历史点击,及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统;和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果,根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。
-
-
-
-
-
-
-
-
-