-
公开(公告)号:CN114707007B
公开(公告)日:2022-08-30
申请号:CN202210635337.4
申请日:2022-06-07
Applicant: 苏州大学
IPC: G06F16/41 , G06F16/45 , G06F16/432 , G06F16/483 , G06F16/48 , G06F16/51 , G06F16/55 , G06F16/583 , G06F16/58 , G06F16/31 , G06F16/33 , G06F16/35
Abstract: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。
-
公开(公告)号:CN117332247B
公开(公告)日:2024-02-23
申请号:CN202311635874.X
申请日:2023-12-01
Applicant: 苏州大学
IPC: G06F18/21 , G06F18/214 , G06N3/0455 , G06N3/0499 , G06N3/0442 , G06N3/082 , G06N3/084
Abstract: 本发明公开了以大语言模型为媒介的大数据交易和质量评估方法及系统,涉及数据交易与评估技术领域,包括:各个公司利用私有数据建立指令微调数据集,并根据指令微调数据集独立训练大语言模型;基于混合专家系统将各个公司训练好的大语言模型整合为完整的行业大语言模型;利用行业大语言模型代替数据的直接交易,并对行业大语言模型的效果进行质量评估;相对于联邦学习方案本发明不需要在参与方间进行频繁的模型参数更新通信,因此性能更高,安全性更强;且本发明利用大语言模型生成答案,可以使评估方法更具通用性,适用于多样化的大数据场景,也降低非专业人士对数据质量评估的门槛,使更多人能够准确评估数据质量。
-
公开(公告)号:CN117218498B
公开(公告)日:2024-02-23
申请号:CN202311477951.3
申请日:2023-11-08
Applicant: 苏州大学
IPC: G06V10/774 , G06V10/44 , G06F18/214 , G06F18/25 , G06F18/2415
Abstract: 本发明公开了基于多模态编码器的多模态大语言模型训练方法及系统,涉及电子信息技术领域,包括构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成;训练流程包括基于多模态编码器抽取文本指令可知的图像Queries,生成文本回复并计算损失函数;推理流程包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。本发明所述方法借助多模态编码器使抽取的图像特征在早期与输入的文本指令交互,使抽取的图像特征能够更精准地与输入的文本指令对齐,运用现成模型已有的知识,降低了训练成本,本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。
-
公开(公告)号:CN116127050B
公开(公告)日:2023-07-25
申请号:CN202310405542.6
申请日:2023-04-17
Applicant: 苏州大学
IPC: G06F16/332 , G06F16/33
Abstract: 本发明公开了一种意见挖掘方法、电子设备及计算机可读存储介质。其方法包括:获取评论文本,将评论文本转换为token序列;对token序列进行编码得到上下文表示;根据上下文表示获取评论主体位置的中间层表示,预测评论主体的位置;根据上下文表示获取评论词位置的中间层表示,预测评论词的位置;根据上下文表示获取评论主体位置的新的中间层表示和评论词位置的新的中间层表示;得到词对关系的中间层表示,并选择概率值最大的关系作为词对的关系;通过预测的评论主体的位置得到对应的评论主体,通过预测的评论词的位置得到对应的评论词。本发明可以快速、准确地挖掘出评论文本中的评论主体和对应的评论词,具有复杂度低、效率高的优点。
-
公开(公告)号:CN116384377A
公开(公告)日:2023-07-04
申请号:CN202310548185.9
申请日:2023-05-16
Applicant: 苏州大学
IPC: G06F40/232 , G06F40/289 , G06F18/214 , G06F40/211 , G06F40/216
Abstract: 本发明涉及一种优化公文写作场景下中文文本纠错的方法、系统及处理器,包括以下步骤:搜集获得原始数据集;对原始数据集中的句子进行分词操作,获得高频词表;对高频词表进行扩展;对原始数据集中的多个句子进行造错,依据错误‑正确句子对和高频词表对BERT编码器进行预训练;从网络上收集公文写作词组,构成公文写作词表;爬取公文网站上多个正确的句子,构建公文写作数据集;对公文写作数据集中的正确的句子进行造错,依据错误‑正确句子对和高频词表再次对BERT编码器进行训练;使用优化后的BERT编码器对待处理的中文文本进行预测,获得纠错后的文本输出。其能够对公文写作场景中出现的错别字进行学习和纠正,并能够解决多字和少字错误的问题。
-
公开(公告)号:CN115712740B
公开(公告)日:2023-06-06
申请号:CN202310031393.1
申请日:2023-01-10
Applicant: 苏州大学
IPC: G06F16/432 , G06F16/483 , G06F16/45 , G06N3/048 , G06N3/084
Abstract: 本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。
-
公开(公告)号:CN116127050A
公开(公告)日:2023-05-16
申请号:CN202310405542.6
申请日:2023-04-17
Applicant: 苏州大学
IPC: G06F16/332 , G06F16/33
Abstract: 本发明公开了一种意见挖掘方法、电子设备及计算机可读存储介质。其方法包括:获取评论文本,将评论文本转换为token序列;对token序列进行编码得到上下文表示;根据上下文表示获取评论主体位置的中间层表示,预测评论主体的位置;根据上下文表示获取评论词位置的中间层表示,预测评论词的位置;根据上下文表示获取评论主体位置的新的中间层表示和评论词位置的新的中间层表示;得到词对关系的中间层表示,并选择概率值最大的关系作为词对的关系;通过预测的评论主体的位置得到对应的评论主体,通过预测的评论词的位置得到对应的评论词。本发明可以快速、准确地挖掘出评论文本中的评论主体和对应的评论词,具有复杂度低、效率高的优点。
-
公开(公告)号:CN117271780A
公开(公告)日:2023-12-22
申请号:CN202311546547.7
申请日:2023-11-20
Applicant: 苏州大学
IPC: G06F16/35 , G06N3/0464 , G06N3/08 , G06F40/205
Abstract: 本发明涉及大语言模型技术领域,公开了一种基于大语言模型自身对上下文进行压缩的方法及系统,包括:获取待压缩文本,添加任务描述、分隔符和压缩槽;当GPU资源紧缺的情况下,利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层,当GPU资源充沛时,预训练大语言模型自身对所述待压缩文本进行压缩;将训练后的大语言模型进行推理,生成文本回复。本发明提供基于大语言模型自身对上下文进行压缩的方法及系统任务提示参与到压缩过程中,可以让压缩后的虚拟字符更具目的性从而生成更好的输出结果。既可以利用现有的大语言模型,也可以将压缩部署在预训练阶段,并且通过大语言模型自身对上下文进行压缩,不需要额外训练压缩器。
-
公开(公告)号:CN115630635B
公开(公告)日:2023-04-25
申请号:CN202211639239.4
申请日:2022-12-20
Applicant: 苏州大学
IPC: G06F40/232 , G06F40/253 , G06F16/33 , G06F40/194 , G06N3/0464
Abstract: 本发明实施例提供了一种基于检索和多阶段的中文文本校对方法、系统及设备,该方法包括输入纠错文本,在数据库中寻找与纠错文本最相似的文本,并将最相似文本和所述纠错文本进行拼接,得到拼接文本;对所述拼接文本进行拼写纠正;对拼写纠正后的文本进行基于序列到编辑的语法纠正得到修改结果一;将所述修改结果一和纠错文本基于序列到序列的语法纠正通过设置阈值范围得到的修改结果二进行困惑度比较;将困惑度低的修改结果作为最后的修改结果。本发明能有效提升系统的鲁棒性,在改善多种类型文本错误的同时提升检测错误和纠正错误的准确率。
-
公开(公告)号:CN115712740A
公开(公告)日:2023-02-24
申请号:CN202310031393.1
申请日:2023-01-10
Applicant: 苏州大学
IPC: G06F16/432 , G06F16/483 , G06F16/45 , G06N3/048 , G06N3/084
Abstract: 本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。
-
-
-
-
-
-
-
-
-