-
公开(公告)号:CN104731774A
公开(公告)日:2015-06-24
申请号:CN201310722090.0
申请日:2013-12-24
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/289
Abstract: 本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。
-
公开(公告)号:CN102779193B
公开(公告)日:2015-05-13
申请号:CN201210244519.5
申请日:2012-07-16
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 自适应个性化信息检索系统及方法,涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉,伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,及根据特征矩阵获得训练参数预测模型的数据输入子系统;用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;用于以预测参数组织当前查询、历史查询和历史点击,及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统;和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果,根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。
-
公开(公告)号:CN101699432B
公开(公告)日:2015-01-21
申请号:CN200910073206.6
申请日:2009-11-13
IPC: G06F17/30
Abstract: 基于排序策略的信息过滤系统,涉及到信息过滤技术领域。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。本发明的信息过滤系统由训练模型、过滤器和特征权重库组成,所述过滤器对新信息单元进行识别的方法为:将信息过滤问题转化成排序问题,针对核心评价指标1-ROCA进行优化,建立基于排序策略的信息过滤模型,所述过滤模型采用排序逻辑回归学习算法,并综合运用基于TONE策略的参数权重更新算法和重采样技术获得权重参数,进而获得新信息单元的预测分值,根据预测分值与设定阈值的对比结果,判定新邮件的属性。本发明的方法可以应用到各种信息过滤、信息推送系统中。
-
公开(公告)号:CN101908055A
公开(公告)日:2010-12-08
申请号:CN201010118656.5
申请日:2010-03-05
IPC: G06F17/30
Abstract: 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统,涉及到一种信息过滤方法及该方法中的阈值设定方法。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。所述优化lam%的信息分类阈值的设定方法是设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。所述信息过滤系统包括特征权重库、训练器、信息过滤器,其中,信息过滤器用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息。本发明可应用于网络信息过滤和手机垃圾短信过滤等电子信息的过滤。
-
公开(公告)号:CN101540017A
公开(公告)日:2009-09-23
申请号:CN200910071908.0
申请日:2009-04-28
Abstract: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。
-
-
-
-