-
公开(公告)号:CN119418243A
公开(公告)日:2025-02-11
申请号:CN202411456643.7
申请日:2024-10-17
Applicant: 重庆邮电大学
IPC: G06V20/40 , G06Q50/20 , G06V20/52 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/766 , G06N3/0455 , G06N3/08
Abstract: 本发明提出一种基于Transformer和任务动态对齐的学生课堂行为检测方法。一方面该方法在主干网络加入GLTB增强特征提取能力。其中,利用CGLU用于增强非线性特征表达能力,结合MHSA的全局特征提取能力,这种方式拥有更强的特征提取能力。另一方面,采用了由GLSA改进的作为颈部结构网络,不仅能够有效提取全局特征,还能够捕捉到细粒度的局部特征,同时能够促进全局与局部信息之间的相互作用。这种方式在处理复杂任务时,能够更加准确地识别和理解图像中的关键信息。另外,采用了新型检测头ETADH,通过特征提取器学习分类和定位任务的交互特征并通过任务拆解模块进行任务分解。通过这种方式增强两个任务之间的交互性,有效利用相互之间的关联信息来提升检测精度。
-
公开(公告)号:CN119811574A
公开(公告)日:2025-04-11
申请号:CN202411565903.4
申请日:2024-11-05
Applicant: 重庆邮电大学
IPC: G16H15/00 , G16H30/40 , G06T7/00 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/092
Abstract: 本发明涉及深度学习、自然语言处理、跨模态对齐、图像字幕等技术,并公开了一种基于细粒度最优视角约束的医学影像报告生成方法。该方法通过分析医学影像中所有对象的位置关系和视觉特征来确定该医学影像最合适视角。随后,将最优视角作为前缀编码,融合句子对应对象的位置信息与视觉特征,通过计算对象与句子对应的概率分数以过滤对象集合。在此基础上,利用过滤后的对象集合重构联合对象子图像,根据先前的句子和与当前句子对应的视觉特征来生成当前时间步的句子,并确定是否是最后一个句子,最后得到医学影像文本报告。本发明的技术方案弥合了医学影像报告生成领域的视觉与语言之间的鸿沟,为解决这一难题提供了一种创新方法。
-
公开(公告)号:CN117874264A
公开(公告)日:2024-04-12
申请号:CN202311654682.3
申请日:2023-12-05
Applicant: 重庆邮电大学
IPC: G06F16/432 , G06F16/483 , G06F18/241 , G06F18/213 , G06F18/214 , G06F18/22 , G06F18/25 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于Transformer的跨模态细粒度检索方法,包括选取并制作跨模态检索任务所需的训练集数据和验证集数据,分别包含了图像,视频,音频和文本四个模态,以及它们各自的标签文件。本方法核心创新分为两部分,第一部分为模态特异性特征提取,将来自各模态的数据通过各自的编码器后,接LAGC‑Attention模块完成细粒度特征提取;第二部分为跨模态信息交互,通过自设计的跨模态交互的MMC模块完成,该模块可以充分融合来自不同模态的特征信息,并对不同模态的公共特征表达进行对齐。因此,每个模态提取得到的特征表达不仅包含了其单模态的有效信息,还包含了不同模态之间的联系与共性。这极大地增强了每一个模态的特征表达能力,尤其是缩小了文本模态与图像模态之间的异构性。因此在跨模态检索任务中,各模态皆可高效且准确地搜寻到其他模态。本发明为后续的跨模态细粒度检索和推荐算法等研究提供了重要的技术支持,可广泛应用于搜索引擎,精准推送等现实场景。
-
公开(公告)号:CN119493871A
公开(公告)日:2025-02-21
申请号:CN202411449897.6
申请日:2024-10-17
Applicant: 重庆邮电大学
IPC: G06F16/432 , G06F16/48 , G06F18/241 , G06F18/25 , G06N3/0464
Abstract: 本发明提出基于模态特异特征和模态共享特征的跨模态细粒度检索方法。跨模态细粒度检索任务的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本。一方面,本发明使用分支网络提取各个模态的模态特异性特征,以便充分利用每个模态的特征信息;另一方面,使用同一个网络提取模态的共同特征,以加强模态间的联系,使模型学习到不同模态数据间的共性及联系。这样同时利用各个模态自身的特有信息及不同模态的共享信息,增加高维语义空间向量中包含的语义信息,消减样本间的异构鸿沟和语义鸿沟,增强模型对高维空间向量的聚类能力,进一步提高模型的跨模态检索能力。
-
公开(公告)号:CN118866225A
公开(公告)日:2024-10-29
申请号:CN202410870943.3
申请日:2024-06-28
Applicant: 重庆邮电大学
IPC: G16H15/00 , G16H30/40 , G06N3/0455 , G06V10/40 , G06N3/045 , G06V10/82 , G06F18/22 , G06N3/0464 , G06V10/80 , G06F40/284 , G06F40/30 , G06V10/74 , G06N3/08
Abstract: 本发明涉及深度学习、自然语言处理、跨模态对齐、图像字幕等技术,并公开了一种基于周期性跨模态对齐的医学影像报告生成方法。该方法构建图像文本对应关系,并采用自适应注意因子,通过多层感知器学习和改进单词与图像区域之间的对应关系。同时使用相似度得分评估每个单词的重要性,确保模型能够更好地选择和加权单词,以提高报告生成的质量。在此基础上,模型引入了循环周期,允许模型多次迭代对齐操作,以进一步提高模型性能。最终,将循环跨模态对齐更新后的文本特征与图像特征拼接,用于生成医学报告。本发明的技术方案弥合了医学影像报告生成领域的视觉与语言之间的鸿沟,为解决这一难题提供了一种创新方法。
-
公开(公告)号:CN116993661A
公开(公告)日:2023-11-03
申请号:CN202310614991.1
申请日:2023-05-29
Applicant: 重庆邮电大学
IPC: G06T7/00 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,包括如下步骤:步骤一:根据息肉数据集划分所需的训练集和测试集;步骤二:对数据集进行预处理,统一尺寸和归一化;步骤三:将预处理后的数据输入神经网络中,提取图像特征;步骤四:计算输出的息肉位置预测图和临床医学专家标注的标签之间的损失,训练并优化模型,记录最优参数;步骤五:为模型加载最优保存权重,根据模型第一层和第二层输出的预测图计算最终分割预测。本方法的优势在于捕捉浅层特征中的多尺度信息和细节信息,融合并过滤深层语义特征。编码器端计算全局关系,重新调整特征图权重。模型实现了端到端的自动息肉分割,可准确分割多种息肉。
-
公开(公告)号:CN118113888A
公开(公告)日:2024-05-31
申请号:CN202311663327.2
申请日:2023-12-05
Applicant: 重庆邮电大学
IPC: G06F16/432 , G06F16/483 , G06V10/40 , G06V10/82 , G06F18/2451 , G06F18/25 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明提出基于多信道融合的跨模态细粒度检索方法。一方面该方法使用分支网络提取四个模态的深度特征信息。这种方式可以极大的提取专属于每个模态的特征,将每个模态的特征信息进行充分利用。另一方面,提取到每个模态的深度特征信息后,将其分为四个信道然后进行重组,使得重组后的每一组信息都包含四个模态的深度特征信息,这样在模型学习时其不仅能学习到本模态的信息,同时也提前学习了其他模态带来的信息,极大地增强了各个模态间的信息交互能力,从而增强模型的分类能力,为后续的检索任务提供了更加准确的分类结果,进一步提高模型的跨模态检索能力。使该技术可以应用到搜索引擎或公安系统中,有效提高检索准确率和犯罪侦查效率。
-
-
-
-
-
-