-
公开(公告)号:CN116681061A
公开(公告)日:2023-09-01
申请号:CN202310630375.5
申请日:2023-05-31
Applicant: 哈尔滨工业大学
IPC: G06F40/232 , G06F40/30 , G06F16/35
Abstract: 一种基于多任务学习和注意力机制的英文语法纠正技术,它涉及一种英文语法纠正技术。本发明为了解决现有英文语法纠正技术适应能力较差,对一些复杂语句的语法纠正不准确的问题。本发明的步骤为:对于输入的句子,从数据库中读取英文分词词表及编辑标签词表;将句子输入预训练编码模型,获取整个句子的上下文表示;将得到的上下文特征向量经过自注意力层;判别输入子词是否需要进行编辑操作,使用词表大小的分类器对输入的子词进行编辑标签分类;根据模型预测的纠正标签对应的意义对输入句子中的单词进行后处理,得到的后处理结果再输入模型进行多次迭代得到最终结果。本发明属于自然语言处理技术领域。
-
公开(公告)号:CN113377916B
公开(公告)日:2023-03-24
申请号:CN202110693377.X
申请日:2021-06-22
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/34 , G06F16/36 , G06F40/295 , G06F40/30 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。
-
公开(公告)号:CN113326360B
公开(公告)日:2022-12-13
申请号:CN202110447496.7
申请日:2021-04-25
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F16/35 , G06F40/30
Abstract: 本发明提出一种小样本场景下的自然语言理解方法,所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义,使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的;本发明的方法能够在小样本的场景下更好的判断出问题的意图,并识别出问题的槽位,从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。
-
公开(公告)号:CN115034216A
公开(公告)日:2022-09-09
申请号:CN202210606979.1
申请日:2022-05-31
Applicant: 哈尔滨工业大学
IPC: G06F40/289 , G06F40/284 , G06F40/205 , G06F16/953 , G06K9/62
Abstract: 本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法,本发明首先需要将新闻文本进行清洗,去除其中无用信息;然后通过文本处理模块,得到新闻文本中的潜在关键词和词频信息;之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射,最后融合前述两个模型对关键词的排序分布获得最后关键的分布,从而获得新闻文本关键词;本发明能够改进新闻文本关键词提取的精度,进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性,更为全面地覆盖新闻文本的主要信息,节省人工复核的时间。
-
公开(公告)号:CN113312452B
公开(公告)日:2022-05-27
申请号:CN202110667388.0
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。
-
公开(公告)号:CN114529758A
公开(公告)日:2022-05-24
申请号:CN202210084807.2
申请日:2022-01-25
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06K9/62 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于对比学习和多头自注意力机制的多模态情感分析方法,本发明采用预训练模型,对文本和图片进行序列特征提取,之后针对图像采用基于多头自注意力机制的Transformer‑Encoder结构进行二次序列特征提取,然后将文本序列特征和图像序列特征拼接后使用Transformer‑Encoder进行特征提取,得益于自注意力机制,可以帮助文本和图像特征更好的对齐和融合;最后采用多任务学习,辅助模型更好的进行情感分类任务;同时加入两种辅助对比学习任务,帮助模型更好的提取学习文本和图像融合后的特征,帮助模型提升数据情感的区分能力。
-
公开(公告)号:CN113836867A
公开(公告)日:2021-12-24
申请号:CN202110998663.7
申请日:2021-08-27
Applicant: 黑龙江阳光惠远信息技术有限公司 , 哈尔滨工业大学
IPC: G06F40/126 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种专利文本可授权性预测方法及装置,属于自然语言处理中的文本匹配技术,目的是为了对撰写的专利申请文件是否符合专利法第26条进行初步预测。所述方法包括:利用4头注意力的transformer编码器对待预测专利文本、授权专利文本、以及未授权专利文本进行向量化编码,分别得到q[1:m]、d1[1:n]、和d2[1:n];对q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF‑kernel来转换M,得到矩阵K1至Kk,对于第p个kernel,计算矩阵Kp:对于授权专利文本和未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。所述装置包括向量化编码模块、第一计算模块、转换模块、第二计算模块和预测模块。
-
公开(公告)号:CN111597778A
公开(公告)日:2020-08-28
申请号:CN202010294829.2
申请日:2020-04-15
Applicant: 哈尔滨工业大学
IPC: G06F40/166 , G06F40/232 , G06F40/58
Abstract: 本发明涉及一种基于自监督的机器翻译译文自动优化的方法和系统,属于机器翻译领域。所述方法包括以下步骤:步骤一、使用大规模平行语料对模型进行训练,使模型学习替换操作;步骤二、使用人工构造的伪数据对模型进行训练,使模型学习插入操作,得到训练好的模型;步骤三、使用训练好的模型对待优化的译文中的每个词和词间空隙进行候选词预测,完成替换和插入的后编辑操作。本发明利用双语平行语料作为模型预训练的输入,使得模型在不同机器翻译系统上都能获得良好的优化性能,是一种通用的机器翻译自动后编辑模型。
-
公开(公告)号:CN110335152A
公开(公告)日:2019-10-15
申请号:CN201910621240.6
申请日:2019-07-10
Applicant: 哈尔滨工业大学
IPC: G06Q40/04
Abstract: 基于标签组合的股市分析方法,本发明涉及股市分析方法。本发明的目的是为了解决现有传统的基本面分析方法需要考虑非常多的信息,以及依赖深度学习的方法以黑盒的方式考虑信息,没有很好的可解释性,模型一旦固定,很难再融合其他信息的问题。过程为:一、定义股票和标签的基本特征;二、建立标签之间的关系以及股票之间的关系;三、判断是否为股票开盘时间,若是,执行四;若否,结束;四、获取当前股票的行情数据;五、基于建立的标签之间的关系、股票之间的关系和获取当前股票的行情数据,选出热门的标签组合,基于热门的标签组合,选出热门的标签;六、将选出的热门标签以网络图的方式展示。本发明用于股市分析领域。
-
公开(公告)号:CN110334300A
公开(公告)日:2019-10-15
申请号:CN201910621253.3
申请日:2019-07-10
Applicant: 哈尔滨工业大学
IPC: G06F16/957 , G06F16/958 , G06F16/34 , G06F17/27
Abstract: 本发明提供面向舆情分析的文本辅助阅读方法,属于自然语言处理技术领域。本发明首先对各种类型网页使用统一方法进行正文抽取;然后对文本进行人物、地点、机构等实体的命名实体识别并突出显示;再对文本进行自动摘要,并将句子按重要度进行排序并突出显示。本发明解决了现有舆情分析人员阅读大量文本资料时存在重点提取困难、阅读效率低下的问题。本发明可用于舆情分析的文本辅助阅读,阅读者能够快速获得主旨信息。
-
-
-
-
-
-
-
-
-