-
公开(公告)号:CN117371576A
公开(公告)日:2024-01-09
申请号:CN202311171887.6
申请日:2023-09-12
Applicant: 哈尔滨工业大学
IPC: G06Q10/04 , G06Q50/18 , G06F18/22 , G06F18/23213 , G06F16/35 , G06N3/0464
Abstract: 一种专利授权率预测方法、系统、设备及存储介质,属于信息处理技术领域,解决现有专利审查过程中存在的无法全面检索并使用与专利相关的公开的现有技术从而导致预测的准确率下降的问题。所述方法包括:获取待测专利文献的摘要,对摘要文本进行向量化,得到摘要的向量;计算待测专利文献的余弦和公开专利数据集的余弦相似度;选取N篇与待测专利文献的余弦相似度最高的公开专利,并对其于待测专利文献进行训练,得到处理后文本和选取出的公开专利的向量表示;采集公开专利文献的主题;计算公开专利文献与其主题向量的距离,作为数据分布表示;通过卷积层、池化层和全连接层获得专利授权预测结果。本发明适用于专利授权率的预测场景。
-
公开(公告)号:CN117350306A
公开(公告)日:2024-01-05
申请号:CN202311229851.9
申请日:2023-09-22
Applicant: 哈尔滨工业大学
IPC: G06F40/51 , G06F40/58 , G06N3/0455 , G06N3/088 , G06N3/09 , G06N3/0895 , G06N3/0442
Abstract: 一种基于预训练模型注意力机制的无监督词汇级翻译质量评估方法和系统,涉及词汇级翻译质量评估领域。解决了现有技术对于汇级别对于标注数据的依赖性强的问题。所述方法包括:S1:部署两个多语言预训练模型XLM‑RoBERTa和XLM‑Align,并无需追加训练;S2:获取两个预训练模型的Transformer层的自注意力矩阵;S3:根据所述预训练模型的Transformer层的自注意力矩阵进行逐次分析待评估词汇与其余词汇的注意力权值,将注意力权值作为词汇级翻译的质量评估的评分。本发明应用于人工智能领域。
-
公开(公告)号:CN117291174A
公开(公告)日:2023-12-26
申请号:CN202311149657.X
申请日:2023-09-07
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/289 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 一种基于自定义掩码对象的预训练语言模型优化方法、设备及存储介质,属于自然语言技术领域。解决了预训练语言模型在领域任务中的应用存在一定的领域不适配性、由于领域文本的识别问题使得预训练语言模型在训练时未能学习到足够领域知识而导致领域任务表现不佳的问题。所述方法包括:采集输入文本,采用所述分词工具对所述输入文本进行处理,得到处理后的输入文本;将所述处理后的输入文本采用编码器获得每个位置的字的上下文表示;基于所述上下文表示,采用分类器获得处理后的输入文本的损失函数,并依据所述损失函数进行梯度回传和参数更新,完成对模型的优化。本发明适用于处理专利文献识别处理领域预训练模型的领域化问题。
-
公开(公告)号:CN114861688A
公开(公告)日:2022-08-05
申请号:CN202210614630.2
申请日:2022-05-30
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/30 , G06F40/253
Abstract: 本发明提出一种面向低资源机器翻译的平行数据筛选方法及系统。所述方法首先基于语言模型计算平行数据的出现概率,将其作为语法正确性得分,然后基于句子表示方法计算平行数据中源语言句与目标语言句的语义匹配度得分,接下来计算平行数据与对应原数据的N‑Gram片段相异率作为其表达形式多样性得分,三项得分累加后作为该条平行数据的质量评分,最后按照质量评分从高到低对所有平行数据进行排序,并从中选择出一定比例的最高质量的平行数据加入到原语料库中共同训练神经机器翻译模型。所述方法具有提高模型训练速度和改善翻译质量等优点。
-
公开(公告)号:CN114818658A
公开(公告)日:2022-07-29
申请号:CN202210617790.2
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于图神经网络和推理路径的文档级关系抽取方法。本发明为了解决在文档级关系抽取中常用的图模型方法只能关注实体局部特征的特点,不能很好的表示两个实体之间全局特征的问题。本发明的具体的步骤为:步骤一、基于启发式的规则将一篇输入的文档转化为图结构;步骤二、利用路径搜索算法在构造图结构中提取出不同实体对之间的多条路径;步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;步骤四、得到图结构中实体对之间的路径信息向量表示;步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。本发明属于自然语言处理领域。
-
公开(公告)号:CN113360606A
公开(公告)日:2021-09-07
申请号:CN202110706335.5
申请日:2021-06-24
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/332 , G06F16/36 , G06F40/216 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于Filter的知识图谱问答联合训练方法,该方法通过利用问句作为输入将主实体识别和关系预测两个子任务使用预训练语言模型BERT进行联合学习;将模型进行联合学习后的结果输入到过滤器中,得到适用于不同子任务的词向量表示;利用主实体识别、实体链接和关系预测的词向量表示从问句中识别出主实体,并在知识图谱中找到主实体的三元组,预测关系谓词;通过主实体词和关系谓词从知识图谱中找到答案步骤实现。本发明能够解决知识图谱问答进行联合训练时各个任务会因为彼此的特征冲突导致的学习到的模型会忽略部分任务相关的特征的问题,并通过两类过滤器来确保学习到的模型既能利用任务的关联性,又能注意到任务的差异性。
-
公开(公告)号:CN113312452A
公开(公告)日:2021-08-27
申请号:CN202110667388.0
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。
-
公开(公告)号:CN113297841A
公开(公告)日:2021-08-24
申请号:CN202110566113.8
申请日:2021-05-24
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/284 , G06F40/58 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于预训练双语词向量的神经机器翻译方法,将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练;训练:取预训练得到的双语词向量矩阵初始化翻译模型;将源语言输入编码器,将源语言编码的向量表示及对应目标语言输入解码器输出预测序列,将其与相应的目标序列进行对比并计算损失值,输入优化器对翻译模型参数进行优化;预测:在某个时间步里,将源语言输入优化的编码器,编码器输出相应向量表示,将该向量表示以及上一时间步翻译的目标语言词输入解码器,解码器输出该时间步的目标词,将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。
-
公开(公告)号:CN111897944A
公开(公告)日:2020-11-06
申请号:CN202010827800.6
申请日:2020-08-17
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F40/30 , G06F40/295 , G06F40/216 , G06F16/36 , G06F16/28
Abstract: 基于语义空间共享的知识图谱问答系统,它属于中文知识图谱问答技术领域。本发明解决了现有知识图谱问答系统中各模块之间信息共享不足,导致获得的答案实体的准确率有限的问题。本发明利用问句主实体识别子模块,实体链接子模块和关系预测子模块的训练数据来联合训练BERT预训练语言模型,通过将联合训练好的模型嵌入各子模块,以实现语义空间的信息共享。通过本发明方法可以确保问句主实体识别子模块能够且只能从自然语言问句中识别出一个主实体,通过各子模块之间的语义信息共享,可以有效提高获得的答案实体的准确率。通过实验证明,采用本发明方法获得的答案实体的准确率可以达到86.64%。本发明可以应用于知识图谱问答。
-
公开(公告)号:CN107357789B
公开(公告)日:2020-10-02
申请号:CN201710575907.4
申请日:2017-07-14
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/289 , G06F40/247
Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1‑3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。
-
-
-
-
-
-
-
-
-