-
公开(公告)号:CN114201621B
公开(公告)日:2024-04-02
申请号:CN202111406136.9
申请日:2021-11-24
IPC: G06F16/43 , G06F16/583 , G06V10/25 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/044
Abstract: 本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。
-
公开(公告)号:CN117422526A
公开(公告)日:2024-01-19
申请号:CN202311518835.1
申请日:2023-11-15
Applicant: 哈尔滨工业大学
IPC: G06Q30/0601 , G06F16/9535 , G06N3/0895
Abstract: 本发明公开了一种基于提示的用户跨域冷启动方法,包括:获取用户特有表征、用户通用表征和商品表征;通过用户特有表征和商品表征,获取场景提示向量;根据场景提示向量和用户通用表征,获取目标场景的特有表征,完成基于提示的用户跨域冷启动。本发明通过提出的场景提示生成方法,通过最大化目标场景的提示与目标场景中所有用户与商品之间的互信息的方式,对每个场景的特征进行全面捕捉;本发明中的基于场景提示的目标场景用户表征生成方法,通过考虑不同场景之间的关系以及每个场景的特征,在仅仅知道用户通用表征的情况下,依然可以实现在不同场景中对同一用户进行精准个性化推荐的效果,进而解决用户跨域冷启动问题。
-
公开(公告)号:CN116738984A
公开(公告)日:2023-09-12
申请号:CN202310748270.X
申请日:2023-06-25
Applicant: 哈尔滨工业大学
IPC: G06F40/284 , G06F40/117 , G06F40/186 , G06N20/00
Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。
-
公开(公告)号:CN116484123A
公开(公告)日:2023-07-25
申请号:CN202310486453.9
申请日:2023-04-28
Applicant: 哈尔滨工业大学
IPC: G06F16/9538 , G06F16/35 , G06F18/22 , G06F18/24 , G06N3/0442
Abstract: 本发明提供一种长文本的标签推荐模型构建方法及标签推荐方法,涉及自然语言处理技术领域,该模型构建方法包括:获取历史长文本,对历史长文本进行标注,得到文本标签、标准相似度、历史子句和子句的历史权重;根据历史权重得到历史关键句,对文本标签进行标签扩充,得到历史伪标签,并根据历史伪相得到历史标签序列;以上述数据训练初始预测模型,得到预测模型;以上述数据训练初始排序模型,得到重排序模型;根据预测模型和重排序模型得到标签推荐模型。本发明的有益效果:根据子句权重得到表示长文本含义的关键句,对文本标签进行扩充以得到便于模型理解的伪标签,实现长文本的标签推荐,且有效提升了模型的准确度。
-
公开(公告)号:CN113535957B
公开(公告)日:2022-08-02
申请号:CN202110850763.5
申请日:2021-07-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06F16/36 , G06N5/02 , G06N3/08 , G06F40/284 , G06F40/242
Abstract: 本申请公开了一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。解决了现有Emotion Recognition in Conversation(ERC)模型忽视了话语和知识的直接交互;使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息的问题。本申请利用一个大规模知识图谱中的常识知识来增强词级别表示。使用一个自匹配模块整合知识表示和话语表示,允许二者进行复杂交互。将短语级别的情感极性强度预测任务作为辅助任务。该辅助任务的标签来自情感词典的情感极性强度值,明显与ERC任务高度相关,为目标话语的情绪感知提供了直接指导信息。
-
公开(公告)号:CN113535957A
公开(公告)日:2021-10-22
申请号:CN202110850763.5
申请日:2021-07-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06F16/36 , G06N5/02 , G06N3/08 , G06F40/284 , G06F40/242
Abstract: 本申请公开了一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。解决了现有Emotion Recognition in Conversation(ERC)模型忽视了话语和知识的直接交互;使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息的问题。本申请利用一个大规模知识图谱中的常识知识来增强词级别表示。使用一个自匹配模块整合知识表示和话语表示,允许二者进行复杂交互。将短语级别的情感极性强度预测任务作为辅助任务。该辅助任务的标签来自情感词典的情感极性强度值,明显与ERC任务高度相关,为目标话语的情绪感知提供了直接指导信息。
-
公开(公告)号:CN113377844A
公开(公告)日:2021-09-10
申请号:CN202110748160.4
申请日:2021-06-29
Applicant: 哈尔滨工业大学
IPC: G06F16/2458 , G06F16/242 , G06F16/28 , G06F16/25 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种面向大型关系型数据库的对话式数据模糊检索方法及装置,面向大型关系型数据库的对话式数据模糊检索方法包括:获取查询指令;基于预先训练好的文本多标签分类模型,将所述查询指令分类到对应的目标数据库;基于预先训练好的命名实体识别模型,提取所述查询指令的实体,在所述目标数据库中检索出与所述实体相关的属性数据;基于预先训练好的语义识别模型,对所述查询指令进行语义识别,将语义识别结果与所述实体相关的属性数据对比,获得所述查询指令对应的数据检索结果。本发明可提高检索系统的智能性和检索效率。
-
公开(公告)号:CN105740310A
公开(公告)日:2016-07-06
申请号:CN201510963623.3
申请日:2015-12-21
Applicant: 哈尔滨工业大学 , 北京中科汇联科技股份有限公司
CPC classification number: G06F16/3344 , G06F16/951 , G06F17/2785 , G06F17/2795
Abstract: 本发明提供一种用于问答系统中的自动答案摘要方法及系统,其包括:获得用户查询问题与问答系统返回的候选答案集;从问题中提取概念,将概念与问题建立映射,得到问题概念集,从候选答案句子中提取概念,将概念与句子建立映射,得到句子概念集,对所有句子的概念集取并集得到答案概念集;对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,问题扩展概念集与答案概念集取交集获得命中概念集;对命中概念集中包含的概念进行句子质量计算,得到答案摘要。本发明利用概念网络中各个概念的关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。
-
公开(公告)号:CN102043910B
公开(公告)日:2012-12-12
申请号:CN201010600321.7
申请日:2010-12-22
Applicant: 哈尔滨工业大学
Abstract: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。
-
公开(公告)号:CN102012748A
公开(公告)日:2011-04-13
申请号:CN201010566505.6
申请日:2010-11-30
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 语句级中英文混合输入方法,本发明涉及信息输入方法,尤其涉及一种中英文混合语句输入方法。它解决了现有的中英文混合输入方法采用手工标示输入的字母串中哪些需要转换成中文哪些是英文单词,无法保证连续的语句输入的问题。它包括下述步骤:用键盘输入字符串;由输入法管理系统对字符串进行中英文切分;所做的中英文切分是基于中文拼音库和英文词库的自动识别;输入法管理系统对切分后的字符串分别进行相应的中文和英文字符转换,并提供混合语句候选和中英文词语候选;所做出的中文和英文字符转换是基于中文词库和中英文统计库的自动识别;从通过插入、删除、选择等编辑命令,最终从候选列表中选定输出内容;输出中英文混合语句。用于文字输入。
-
-
-
-
-
-
-
-
-