-
公开(公告)号:CN101540017A
公开(公告)日:2009-09-23
申请号:CN200910071908.0
申请日:2009-04-28
Abstract: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。
-
公开(公告)号:CN114818658B
公开(公告)日:2025-05-06
申请号:CN202210617790.2
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/211 , G06F40/295 , G06N3/042 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N5/04
Abstract: 本发明提出一种基于图神经网络和推理路径的文档级关系抽取方法。本发明为了解决在文档级关系抽取中常用的图模型方法只能关注实体局部特征的特点,不能很好的表示两个实体之间全局特征的问题。本发明的具体的步骤为:步骤一、基于启发式的规则将一篇输入的文档转化为图结构;步骤二、利用路径搜索算法在构造图结构中提取出不同实体对之间的多条路径;步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;步骤四、得到图结构中实体对之间的路径信息向量表示;步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。本发明属于自然语言处理领域。
-
公开(公告)号:CN119647621A
公开(公告)日:2025-03-18
申请号:CN202411671767.7
申请日:2024-11-21
Applicant: 哈尔滨工业大学
Abstract: 面向长文本场景的大语言模型安全风险评估方法、系统和设备,属于大语言模型技术领域,解决大语言模型在长文本场景的安全性保障严重不足,存在着极大的安全评估方法的缺口问题。本发明方法包括:大模型在面对长文本输入时,针对同一有害任务,评估其安全性表现是否与短文本场景下的评估结果一致。本发明利用短文本场景安全领域数据,自动化生成整体语义一致、长文本形式的有害内容,构建长文本场景安全风险评估数据集,识别模型在长文本场景下中的潜在安全风险。采用的长文本评估方法包含上下文学习、基于反向长度扩充和思维链的有害长文本生成技术、经过无偏估计处理的安全评估指标。本发明适用于评估大语言模型在长文本场景下的安全风险。
-
公开(公告)号:CN119377261A
公开(公告)日:2025-01-28
申请号:CN202411444741.9
申请日:2024-10-16
Applicant: 哈尔滨工业大学
IPC: G06F16/2453 , G06F16/2455 , G06F16/2457
Abstract: 本发明属于计算机技术领域,具体涉及一种基于外部检索提高大语言模型在财务查询问题上准确率的方法及其系统。步骤1:对财务问题进行总结;步骤2:基于步骤1财务查询问题的总结对大语言模型进行训练;步骤3:对财务问题的复杂度进行判断;步骤4:基于步骤3的判断进行计算公式的分解,分解成多个子公式;步骤5:对步骤4分解成的子公式利用步骤2训练好的大语言模型,得到各个子公式的最终答案;步骤6:将步骤5的求和结果按照分解时的计算公式进行结果求和,让大语言模型自动求解,实现提高大语言模型在财务查询问题上准确率。本发明用以解决大语言模型需要进行大量计算的问题。
-
公开(公告)号:CN115034237B
公开(公告)日:2024-10-29
申请号:CN202210618305.3
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/58
Abstract: 一种基于翻译简易度的数据筛选方法,它涉及一种数据筛选方法。本发明为了解决机器翻译数据增强过程中数据质量不佳的问题。本发明将扩增后的所有平行句对作为筛选的对象,首先,利用原有数据集训练得到一个语言模型,该语言模型用于后续的简易度的测量和计算,然后还需要利用已有的数据训练得到正向和反向的翻译模型,得到了三个模型之后,先根据语言模型计算扩增后新的数据的得分作为第一权值,紧接着再将该句子依次送入正向翻译模型和反向翻译模型后得到一个重构的句子,计算该重构句子和原句子之间的bleu值作为第二权值,最后将两个权值加权求和,按照从小到大进行排序,保留得分在排名前70%的句对即可。本发明属于计算机信息筛选技术领域。
-
公开(公告)号:CN118467719B
公开(公告)日:2024-10-01
申请号:CN202410663888.0
申请日:2024-05-27
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F40/58 , G06F40/194
Abstract: 本发明公开了一种基于思维链的跨语言多文档摘要评价方法,属于自然语言处理技术领域。解决了现有技术中传统的跨语言多文档摘要评价方法忽视生成摘要与原文之间的事实一致性导致的评价质量较低的问题;本发明提取给定的源语言文档集合中每个源语言文档的事实性关键信息,提取生成的跨语言多文档摘要中每个摘要的事实性关键信息;对源语言答案和目标语言答案进行平均度量,得到信息覆盖度得分;计算跨语言多文档摘要中提取的所有事实性关键信息即所有陈述的一致性得分的平均值,得到事实一致性分数;将信息覆盖度得分与事实一致性得分进行融合,得到综合评价分数。本发明有效提升了跨语言多文档摘要评价方法的精度和效率,可以应用于摘要评估。
-
公开(公告)号:CN118468864A
公开(公告)日:2024-08-09
申请号:CN202410593263.1
申请日:2024-05-14
Applicant: 哈尔滨工业大学
IPC: G06F40/279 , G06F40/216
Abstract: 一种基于思维链的跨语言多文档摘要生成方法及系统,涉及自然语言处理领域。解决了现有技术中在跨语言的环境下,不同语言间的语法结构、用词习惯以及文化差异都使得跨语言的信息提取和整合变得更加困难的问题。本发明所述的方法包括:步骤一、输入源语言文档集合;步骤二、对步骤一中每篇源文档进行单文档摘要生成,所述单文档摘要生成包括关键信息提取步骤和多信息整合与摘要生成步骤;步骤三、合并步骤二中生成的各篇文档的单文档摘要,采用增量化合并策略生成多文档摘要;步骤四、利用跨语言思维链引导大语言模型生成目标语言多文档摘要,确保信息的流畅表达和准确传达。步骤五、输出目标语言多文档摘要。本发明还适用于学术、新闻等多个领域。
-
公开(公告)号:CN117574874A
公开(公告)日:2024-02-20
申请号:CN202311396268.7
申请日:2023-10-25
Applicant: 哈尔滨工业大学
IPC: G06F40/20 , G06F18/22 , G06F16/9535 , G06N20/10 , G06Q50/18
Abstract: 一种基于自学习策略的专利成果转化推荐方法及装置,方法包括:获取专利数据集;从每个企业的专利中各抽取一件专利,组成训练集;采用多种方法计算所述训练集中每件专利的摘要文本与所述数据集中剩余专利的摘要文本的相似度;根据采用预设方法计算得到的所述相似度,将所述数据集中剩余专利按照降序排列,得到前m件专利组成样本组,每个样本的样本特征为采用多种方法计算得到的多个所述相似度;基于所述样本组对支持向量机排序模型进行训练;获取待转化专利文本,将所述待转化专利文本输入所述支持向量机排序模型,得到推荐企业结果;该方法不需要人工标注数据,且采用多种方法计算相似度,推荐结果准确率高。
-
公开(公告)号:CN117556834A
公开(公告)日:2024-02-13
申请号:CN202311338861.6
申请日:2023-10-16
Applicant: 哈尔滨工业大学
Abstract: 一种基于上下文期望的无监督词汇级翻译质量评估方法和系统,涉及无监督词汇级翻译质量评估领域。解决现有词汇级别QE需要依赖大规模的标注数据,且机器翻译质量评估不准确的问题。所述方法包括:将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;根据所述生成概率作为评分进行词汇级机器翻译质量评估。本发明应用于机器翻译领域。
-
公开(公告)号:CN117493481A
公开(公告)日:2024-02-02
申请号:CN202311310422.4
申请日:2023-10-11
Applicant: 哈尔滨工业大学 , 无锡睿文科技有限公司
IPC: G06F16/33 , G06F16/332 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 一种基于自注意力机制的后交互专利检索方法及装置,涉及专利信息检索技术领域,方法包括:获取查询文本和待检索专利文本并进行预处理;将经过预处理的所述查询文本和待检索专利文本输入BERT编码器,得到查询向量和待检索专利向量,其中,所述BERT编码器为BERT模型基于专利语料预训练得到;将所述查询向量和待检索专利向量进行拼接,并输入多头自注意力模型,得到各个所述待检索专利文本对应的自注意力结果;将所述自注意力结果拼接后输入多层感知机,得到各个所述待检索专利文本的相似度评分并排序;该方法及装置将多头自注意力机制用于查询和文档的后交互,在专利检索平均准确率以及归一化折损累计增益指标上均有较大提升。
-
-
-
-
-
-
-
-
-