-
公开(公告)号:CN113343719B
公开(公告)日:2023-03-14
申请号:CN202110688705.7
申请日:2021-06-21
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/242 , G06F40/284 , G06N20/00
Abstract: 本发明公开了一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,包括:使用至少两种不同词嵌入模型在源语言和目标语言的单语语料上分别进行训练获得多组不同模型的词嵌入;按照词嵌入训练模型进行分组,并分别进行初始化得到对应初始词典;分别利用当前各模型相对应的词嵌入以及双语翻译词典进行自学习,以更新各个词嵌入分别利用更新后的词嵌入获取当前各自对应的双语翻译词典,并通过协同训练优化过滤提升各个双语翻译词典的置信度;重复第三、第四步直至训练结果收敛,并分别得到各个进程上的最终双语翻译词典。该方法解决了小语种语料资源匮乏的问题,提升了基于无监督学习的单语语料上获取双语翻译词典的无监督方法的效果。
-
公开(公告)号:CN115034237A
公开(公告)日:2022-09-09
申请号:CN202210618305.3
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/58
Abstract: 一种基于翻译简易度的数据筛选方法,它涉及一种数据筛选方法。本发明为了解决机器翻译数据增强过程中数据质量不佳的问题。本发明将扩增后的所有平行句对作为筛选的对象,首先,利用原有数据集训练得到一个语言模型,该语言模型用于后续的简易度的测量和计算,然后还需要利用已有的数据训练得到正向和反向的翻译模型,得到了三个模型之后,先根据语言模型计算扩增后新的数据的得分作为第一权值,紧接着再将该句子依次送入正向翻译模型和反向翻译模型后得到一个重构的句子,计算该重构句子和原句子之间的bleu值作为第二权值,最后将两个权值加权求和,按照从小到大进行排序,保留得分在排名前70%的句对即可。本发明属于计算机信息筛选技术领域。
-
公开(公告)号:CN109063035B
公开(公告)日:2021-11-09
申请号:CN201810779805.9
申请日:2018-07-16
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F16/33 , G06F40/211 , G06F40/289 , G06F40/295 , G06K9/62
Abstract: 一种面向出行领域的人机多轮对话方法,它用于信息技术领域。本发明解决了目前的多轮对话系统对用户问句的意图信息和槽位信息提取存在困难的问题。本发明对短文本问句进行规范化处理,并利用DAN、CNN或BLSTM模型提取规范化处理后的短文本问句的意图信息,且基于BLSTM的模型取得了Micro‑F1值为93.47%的理想效果;利用引入意图特征词的BLSTM‑CRF模型提取规范化处理后的短文本问句的槽位信息,且模型取得了F1值为89.47%的理想效果;将历史的槽位信息和当前问句的槽位信息作为输入,确定当前的对话状态信息,并结合当前问句的意图信息确定下一步的回复策略;根据确定的回复策略选择对应的模板回复给用户。本发明可以应用于信息技术领域用。
-
公开(公告)号:CN113377916A
公开(公告)日:2021-09-10
申请号:CN202110693377.X
申请日:2021-06-22
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。
-
公开(公告)号:CN113312532A
公开(公告)日:2021-08-27
申请号:CN202110608376.0
申请日:2021-06-01
Applicant: 哈尔滨工业大学
IPC: G06F16/951 , G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于深度学习面向公检法领域的舆情等级预测方法。步骤1:从网络上爬取公检法领域相关的舆情信息,提取其中的文本信息存储至数据库中;步骤2:对采集到文本信息利用深度学习模型进行预测,得到舆情等级预测结果;步骤3:将步骤2的舆情等级预测结果存储至系统数据库;步骤4:在数据库中对舆情等级做出相应标识;步骤5:对标识后的数据库中舆情等级提供可访问舆情信息的数据接口;步骤6:通过数据接口在系统中显示舆情等级预测结果。本发明用以解决舆情系统没有针对性的问题,跳出算法的限制。
-
公开(公告)号:CN106844348B
公开(公告)日:2020-01-17
申请号:CN201710077125.8
申请日:2017-02-13
Applicant: 哈尔滨工业大学
IPC: G06F40/205 , G06F40/16
Abstract: 一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。
-
公开(公告)号:CN109063035A
公开(公告)日:2018-12-21
申请号:CN201810779805.9
申请日:2018-07-16
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/271 , G06F17/2775 , G06F17/278 , G06K9/6256 , G06K9/6273
Abstract: 一种面向出行领域的人机多轮对话方法,它用于信息技术领域。本发明解决了目前的多轮对话系统对用户问句的意图信息和槽位信息提取存在困难的问题。本发明对短文本问句进行规范化处理,并利用DAN、CNN或BLSTM模型提取规范化处理后的短文本问句的意图信息,且基于BLSTM的模型取得了Micro‑F1值为93.47%的理想效果;利用引入意图特征词的BLSTM‑CRF模型提取规范化处理后的短文本问句的槽位信息,且模型取得了F1值为89.47%的理想效果;将历史的槽位信息和当前问句的槽位信息作为输入,确定当前的对话状态信息,并结合当前问句的意图信息确定下一步的回复策略;根据确定的回复策略选择对应的模板回复给用户。本发明可以应用于信息技术领域用。
-
公开(公告)号:CN106844348A
公开(公告)日:2017-06-13
申请号:CN201710077125.8
申请日:2017-02-13
Applicant: 哈尔滨工业大学
Abstract: 一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。
-
公开(公告)号:CN103617160B
公开(公告)日:2017-02-08
申请号:CN201310674134.7
申请日:2013-12-11
Applicant: 哈尔滨工业大学
Abstract: 基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。
-
公开(公告)号:CN105678409A
公开(公告)日:2016-06-15
申请号:CN201511029681.5
申请日:2015-12-31
IPC: G06Q10/04
CPC classification number: G06Q10/04
Abstract: 一种自适应且分布无关的时间序列异常点检测方法,涉及信息技术领域,尤其涉及一种自适应且分布无关的时间序列异常点检测方法。本发明为了解决现有时间序列数据中存在未知分布、界限控制难、参数需求多、训练数据少以及‘异常’本身的模糊性的问题。本发明按以下步骤进行:一、异常点的定义;二、时间序列特征化;三、相似度和异常度确定;四、基于统计假设检验的检测;五、增强式模糊化过程。本发明解决了现有技术中时间序列数据存在的一系列技术问题,并取得良好技术效果。本发明可应用于信息技术领域。
-
-
-
-
-
-
-
-
-