-
公开(公告)号:CN101187924A
公开(公告)日:2008-05-28
申请号:CN200710178290.9
申请日:2007-11-28
Applicant: 北京金山软件有限公司 , 北京金山数字娱乐科技有限公司 , 哈尔滨工业大学
Abstract: 本发明提供了一种从双语句对获取词对译文的方法,包括步骤:A.接收待处理词条;B.根据待处理词条从索引资源库中检索出候选双语句对;C.从所述检索结果中选择2组双语句对,获取所述2组双语句对中与待处理词条语言类型相同句的最长公共子串;D.判断所述子串是否与待处理词条一致,如果不一致,则再次从检索结果中选择2组双语句对,重复步骤C;如果一致,则:E.获取所述2组双语句对中对应句的最长公共子串。利用索引的方式减少了数据处理的工作量,提高了获取译文的效率。本发明还提供了一种从双语句对获取词对译文的系统。
-
公开(公告)号:CN101131706A
公开(公告)日:2008-02-27
申请号:CN200710175326.8
申请日:2007-09-28
Applicant: 北京金山软件有限公司 , 北京金山数字娱乐科技有限公司 , 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明公开了一种查询修正方法及系统,解决目前的搜索引擎无法对用户输入的多种错误查询进行正确分析,从而导致检索失败的问题。所述方法包括:利用检索资源预置语言模型;调用相应的修正操作,对原始输入的每个查询词进行修正,得到对应每个查询词的多种表示,其中包括原始输入的表示;根据每个查询词的多种表示,得到多种组合形式的词序列;调用所述语言模型计算词序列出现的概率,并将出现概率高的词序列确定为查询建议结果。本发明能够统一地处理查询中多种输入错误或输入不完整的问题,如拼写错误、词形不全等,达到对查询自动修正、帮助用户有效地利用搜索引擎的目的。
-
公开(公告)号:CN119939343A
公开(公告)日:2025-05-06
申请号:CN202510021200.3
申请日:2025-01-07
Applicant: 哈尔滨工业大学
IPC: G06F18/241 , G06F18/213 , G06F40/30 , G06N3/045 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于联合损失框架与后编辑优化的脑电信号文本解码方法,所属领域为脑机接口和自然语言处理领域,包括:获取脑电信号,基于脑电特征提取网络构建分类模型,将所述脑电信号输入至所述分类模型中,获得预定的语义类别;基于混合解码框架构建解码模型,将所述脑电信号输入至所述解码模型中,获得输出特征文本;基于预训练语言模型构建后编辑模型,基于所述后编辑模型对所述预定的语义类别和所述输出特征文本进行后编辑,获得文本解码结果。本发明通过引入CTC/Attention混合框架,使得解码过程可以在没有外部对齐信息的情况下自动完成,降低了对眼动等外部信号的依赖,增强了方法的通用性。
-
公开(公告)号:CN119577113A
公开(公告)日:2025-03-07
申请号:CN202411653554.1
申请日:2024-11-19
Applicant: 哈尔滨工业大学
IPC: G06F16/334 , G06F16/335 , G06F16/338 , G06N20/00
Abstract: 一种基于医学文献信息的医学知识显式归因系统,本发明属于计算机领域人工智能中自然语言处理领域,涉及基于医学文献信息的医学知识显式归因系统。本发明的目的是为了解决现有医学信息和知识的多样性和复杂性使得医学归因和诊断中常存在信息不确定性,导致医学知识在实际应用中缺乏可靠性验证的问题。系统包括:查询文本模块、查询向量模块、文档向量模块、语义相似度模块、文献集合筛选模块、基本原理获取模块、待验证医学知识判断模块和结果输出模块;所述基本原理获取模块用于获取基本原理;所述待验证医学知识判断模块用于判断待验证医学知识的真假;所述结果输出模块用于输出待验证医学知识判断模块的结果和基本原理获取模块的结果。
-
公开(公告)号:CN119493848A
公开(公告)日:2025-02-21
申请号:CN202411647399.2
申请日:2024-11-18
Applicant: 哈尔滨工业大学
IPC: G06F16/3329 , G06F16/334 , G16H70/00 , G06N3/084 , G06N3/09 , G06N5/022 , G06N5/04
Abstract: 一种基于大语言模型的医学问答系统,本发明属于计算机领域人工智能中大语言模型领域,具体涉及基于大语言模型的医学问答系统。本发明的目的是为了解决通用大语言模型在医学领域上回答准确性低,解决医学问题能力差的问题。系统包括:大语言基座模块用于选取一个通用领域的开源大语言模型作为基座模型;知识实例采样模块用于从知识图谱中采样知识实例;问答数据生成模块用于使用大语言基座模型根据知识实例生成问答数据;大语言基座模型微调模块用于使用生成的问答数据对大语言基座模型进行微调,获得微调好的大语言基座模型;回复生成模块用于基于微调好的大语言基座模型对待处理医学知识问题进行回答。
-
公开(公告)号:CN119323254A
公开(公告)日:2025-01-17
申请号:CN202410564145.8
申请日:2024-05-08
Applicant: 哈尔滨工业大学
IPC: G06N5/025
Abstract: 本发明属于计算论辩及论辩挖掘技术领域,具体涉及一种基于指令学习的统一论辩挖掘方法及其挖掘系统。步骤1:将三种类型的AM统一建模为指令学习任务,即构建Uni‑AM的框架;步骤2:使用步骤1构建Uni‑AM的框架训练基于LLM的生成模型;步骤3:使用步骤2的基于LLM的生成模型实现同时处理多种类型的AM的功能。本发明用以解决现有技术中不能同时处理所有三种类型的论辩挖掘及其各自的论辩挖掘子任务的问题。
-
公开(公告)号:CN116340488A
公开(公告)日:2023-06-27
申请号:CN202310298629.8
申请日:2023-03-24
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F16/335 , G06F16/338
Abstract: 面向开放域人机对话的技能推荐系统,它属于计算机人工智能技术领域。本发明解决了现有开放域人机对话中存在的当用户输入中有错误或者歧义信息时机器人可能做出与对话上下文不连贯的回复,以及没有特定的技能引导语句的问题。本发明利用基于弱监督学习的技能识别模块识别用户输入文本中的技能需求。闲聊回复模块根据用户输入分别采用生成式和检索式模型生成候选回复,在排序阶段通过基于Bert的文本相关性打分器对候选回复进行排序打分,选择得分最高的回复作为最优的闲聊回复,技能推荐模块根据最优的闲聊回复主动推荐合适的技能,生成包含推荐技能的流畅回复。本发明方法可以应用于开放域人机对话中的技能推荐。
-
公开(公告)号:CN115391608B
公开(公告)日:2023-05-23
申请号:CN202211013667.6
申请日:2022-08-23
Applicant: 哈尔滨工业大学
IPC: G06F16/901 , G06F16/35 , G06F18/241 , G06N3/0442 , G06N3/09 , G06F9/448
Abstract: 一种图到图结构的自动标注转换方法,涉及自然语言处理技术领域,针对现有技术中通过人工进行标注规范转换准确率低的问题,本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。
-
公开(公告)号:CN110309511B
公开(公告)日:2022-12-09
申请号:CN201910600598.0
申请日:2019-07-04
Applicant: 哈尔滨工业大学
IPC: G06F40/211 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。
-
公开(公告)号:CN113312453B
公开(公告)日:2022-09-23
申请号:CN202110667409.9
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/58
Abstract: 一种面向跨语言对话理解的模型预训练系统,本发明涉及面向跨语言对话理解的模型预训练系统。本发明的目的是为了解决现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题。一种面向跨语言对话理解的模型预训练系统包括:数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块。本发明用于跨语言对话理解领域。
-
-
-
-
-
-
-
-
-