-
公开(公告)号:CN119358542A
公开(公告)日:2025-01-24
申请号:CN202411902097.5
申请日:2024-12-23
Applicant: 苏州大学
IPC: G06F40/247 , G06F40/30 , G06F16/353
Abstract: 本发明提供一种基于人工智能驱动的情感分析系统及方法,涉及人工智能与自然语言处理技术领域,该系统包括语音获取模块,用于接收语音信息,并将其转换为文本语言信息;关键词信息获取模块,用于从文本语言信息中提取关键词;判断模块,用于判断文本语言信息的语言类型;文本评价模块,用于根据语言类型,选择对应的情感分析处理方式,以生成评价信息;声调评价模块,用于接收文本评价模块输出的评价信息,根据评价信息获取对应的声调信息,并基于声调识别结果确定关键词对应的声调指标分数,从而生成包含声调评价信息的语音信息评价信息。本发明能够精准识别语音情感,支持多语言处理,智能化评价,提供准确可靠的情感分析结果。
-
公开(公告)号:CN119251855A
公开(公告)日:2025-01-03
申请号:CN202411776734.9
申请日:2024-12-05
Applicant: 苏州大学
Abstract: 本发明公开了一种基于多模型局部描述整合的行人描述生成方法,涉及图像数据处理技术领域。包括获取待标注的行人图像,将图像与预设指令输入至多个图生文模型,生成行人各属性的局部文本描述;利用图文匹配模型提取图像和文本特征,通过余弦相似度计算图像与文本的匹配度,从多个描述中筛选出与图像最匹配的属性描述;采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述;通过行人图像和文本数据集对图文匹配模型进行训练,并利用对比损失和匹配损失函数进行优化,直至总体损失函数收敛。本发明通过跨模态大模型对行人的属性短语的生成,使得对于行人属性短语的描述更加丰富多样,避免生成的描述趋同。
-
公开(公告)号:CN114860978B
公开(公告)日:2024-08-16
申请号:CN202210493534.7
申请日:2022-05-07
Applicant: 苏州大学
Abstract: 本发明涉及一种基于文本的行人搜索任务语义对齐方法及系统,包括将图像和文本的特征输入至特征聚合网络,输出语义对齐后的感知特征,图像和文本的局部特征通过受跨模态局部对齐损失和三元组损失约束的多头注意力模型实现对齐;基于感知特征计算图像和文本的原始相似度;在推理过程中,给定文本查询,根据原始相似度对图像进行排序,获得初始排序列表,对于初始排序列表中的每个图像相似性得到图像的最近邻,并得到文本查询的最近邻,根据两个最近邻计算文本查询与每个图像之间的成对相似度,对图像进行重排序。本发明不需要额外的模型干预和跨模态注意机制,自动获得跨模式语义对齐的感知特征,且通过文本查询重排序的方式提高语义对齐的性能。
-
公开(公告)号:CN117473119B
公开(公告)日:2024-03-01
申请号:CN202311811165.2
申请日:2023-12-27
Applicant: 苏州大学
IPC: G06F16/783 , G06V30/19
Abstract: 本发明涉及多模态检索领域,公开了一种文本视频检索方法及装置,包括:获取文本样本的编码文本特征与动量文本特征;提取每帧样本图像的编码图像特征与动量图像特征;将每个视频数据多帧样本图像的编码图像特征输入帧选择模块,获取重要性分数;基于动量文本特征与每个动量图像特征的余弦相似度,获取每帧样本图像的相关性分数;构建约束样本图像重要性分数与相关性分数分布一致的散度损失函数;训练直至散度损失函数收敛,获取预先训练好的帧选择模块;利用包含预先训练好的帧选择模块的文本视频检索模型,基于待检测文本及检索视频集,选取每个检索视频数据的K帧优化关键帧,构建优化视频特征,计算与待检测文本的相似性来选取相关视频。
-
公开(公告)号:CN117332247A
公开(公告)日:2024-01-02
申请号:CN202311635874.X
申请日:2023-12-01
Applicant: 苏州大学
IPC: G06F18/21 , G06F18/214 , G06N3/0455 , G06N3/0499 , G06N3/0442 , G06N3/082 , G06N3/084
Abstract: 本发明公开了以大语言模型为媒介的大数据交易和质量评估方法及系统,涉及数据交易与评估技术领域,包括:各个公司利用私有数据建立指令微调数据集,并根据指令微调数据集独立训练大语言模型;基于混合专家系统将各个公司训练好的大语言模型整合为完整的行业大语言模型;利用行业大语言模型代替数据的直接交易,并对行业大语言模型的效果进行质量评估;相对于联邦学习方案本发明不需要在参与方间进行频繁的模型参数更新通信,因此性能更高,安全性更强;且本发明利用大语言模型生成答案,可以使评估方法更具通用性,适用于多样化的大数据场景,也降低非专业人士对数据质量评估的门槛,使更多人能够准确评估数据质量。
-
公开(公告)号:CN114707007A
公开(公告)日:2022-07-05
申请号:CN202210635337.4
申请日:2022-06-07
Applicant: 苏州大学
IPC: G06F16/41 , G06F16/45 , G06F16/432 , G06F16/483 , G06F16/48 , G06F16/51 , G06F16/55 , G06F16/583 , G06F16/58 , G06F16/31 , G06F16/33 , G06F16/35
Abstract: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。
-
公开(公告)号:CN119807466A
公开(公告)日:2025-04-11
申请号:CN202510294112.0
申请日:2025-03-13
Applicant: 苏州大学
IPC: G06F16/583 , G06F16/532 , G06N5/04 , G06V40/10 , G06V20/70 , G06V10/774 , G06V10/98 , G06T3/4046 , G06T3/4053 , G06N3/045 , G06N3/0475
Abstract: 本发明涉及数据生成技术领域,公开了一种基于文本描述的行人检索任务数据集构建方法,包括直接以行人的人物特征,以及行人所处场景的场景特征为占位符,构建基础模板,并对基础模板进行填充后,生成对应的提示词;利用扩散模型,基于提示词,生成图像数据,完全不依赖原始数据,大大降低了隐私风险和规避了合格性问题。同时本发明利用局部编辑模型、全局编辑模型与非刚性编辑模型,直接基于生成的初始图像数据,有选择地对图像数据中对应属性的特征进行编辑,获取编辑图像数据,获取的编辑图像数据分辨率高,且图像生成的泛化性好、自由度高,大大提高了生成的图像数据的多样性,能够更全面的训练行人检索模型,提高模型识别精度。
-
公开(公告)号:CN117332247B
公开(公告)日:2024-02-23
申请号:CN202311635874.X
申请日:2023-12-01
Applicant: 苏州大学
IPC: G06F18/21 , G06F18/214 , G06N3/0455 , G06N3/0499 , G06N3/0442 , G06N3/082 , G06N3/084
Abstract: 本发明公开了以大语言模型为媒介的大数据交易和质量评估方法及系统,涉及数据交易与评估技术领域,包括:各个公司利用私有数据建立指令微调数据集,并根据指令微调数据集独立训练大语言模型;基于混合专家系统将各个公司训练好的大语言模型整合为完整的行业大语言模型;利用行业大语言模型代替数据的直接交易,并对行业大语言模型的效果进行质量评估;相对于联邦学习方案本发明不需要在参与方间进行频繁的模型参数更新通信,因此性能更高,安全性更强;且本发明利用大语言模型生成答案,可以使评估方法更具通用性,适用于多样化的大数据场景,也降低非专业人士对数据质量评估的门槛,使更多人能够准确评估数据质量。
-
公开(公告)号:CN117218498B
公开(公告)日:2024-02-23
申请号:CN202311477951.3
申请日:2023-11-08
Applicant: 苏州大学
IPC: G06V10/774 , G06V10/44 , G06F18/214 , G06F18/25 , G06F18/2415
Abstract: 本发明公开了基于多模态编码器的多模态大语言模型训练方法及系统,涉及电子信息技术领域,包括构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成;训练流程包括基于多模态编码器抽取文本指令可知的图像Queries,生成文本回复并计算损失函数;推理流程包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。本发明所述方法借助多模态编码器使抽取的图像特征在早期与输入的文本指令交互,使抽取的图像特征能够更精准地与输入的文本指令对齐,运用现成模型已有的知识,降低了训练成本,本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。
-
公开(公告)号:CN116384377A
公开(公告)日:2023-07-04
申请号:CN202310548185.9
申请日:2023-05-16
Applicant: 苏州大学
IPC: G06F40/232 , G06F40/289 , G06F18/214 , G06F40/211 , G06F40/216
Abstract: 本发明涉及一种优化公文写作场景下中文文本纠错的方法、系统及处理器,包括以下步骤:搜集获得原始数据集;对原始数据集中的句子进行分词操作,获得高频词表;对高频词表进行扩展;对原始数据集中的多个句子进行造错,依据错误‑正确句子对和高频词表对BERT编码器进行预训练;从网络上收集公文写作词组,构成公文写作词表;爬取公文网站上多个正确的句子,构建公文写作数据集;对公文写作数据集中的正确的句子进行造错,依据错误‑正确句子对和高频词表再次对BERT编码器进行训练;使用优化后的BERT编码器对待处理的中文文本进行预测,获得纠错后的文本输出。其能够对公文写作场景中出现的错别字进行学习和纠正,并能够解决多字和少字错误的问题。
-
-
-
-
-
-
-
-
-