一种微动作时间学参数获取方法、装置及介质

    公开(公告)号:CN116863367A

    公开(公告)日:2023-10-10

    申请号:CN202310664035.4

    申请日:2023-06-06

    Abstract: 本发明公开了一种微动作时间学参数获取方法、装置及介质,属于医疗视频理解与识别领域。其中方法包括:获取吞咽造影视频数据;根据吞咽造影视频数据提取视频特征;所述视频特征包括RGB特征以及光流特征;将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征;将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果。本发明通过利用视频理解中的时序动作定位技术,实现对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各微动作的时序信息,为实现吞咽造影智能定量分析,提供可靠的依据。

    一种测试集压缩方法、系统、装置及存储介质

    公开(公告)号:CN118199652A

    公开(公告)日:2024-06-14

    申请号:CN202410349075.4

    申请日:2024-03-26

    Abstract: 本发明公开了一种测试集压缩方法、系统、装置及存储介质,属于深度学习和数据压缩技术领域。其中方法包括:获取测试集,采用HAST模型从测试集中抽取样本;采用GHM来计算抽取的样本x的复杂度d;根据复杂度d将样本划分为复杂样本和简单样本,获得复杂样本集和简单样本集;按照预设的比例分别从复杂样本集和简单样本集中抽取样本,组成压缩后的测试集。本发明通过利用HAST模型设计的复杂样本抽取的压缩算法,能够有效地对完整测试集进行压缩,保留最具代表性和挑战性的样本,并能快速、准确的完成在不同混合精度的压缩比量化来优化预训练模型的推理。

    一种多模态模型视觉感知能力增强方法、设备及介质

    公开(公告)号:CN119809925A

    公开(公告)日:2025-04-11

    申请号:CN202411826999.5

    申请日:2024-12-12

    Abstract: 本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质,其中方法包括:采集图像数据,并根据图像提出文本问题;挑选基于同一语言模型训练的多个多模态语言大模型,并合并语言模型的参数;基于输入图像,利用多个视觉编码器提取视觉特征;输入文本,通过语言模型对输入文本进行特征提取,获得文本特征;拼接视觉特征与文本特征,获得融合特征;将融合特征输入语言模型进行推理,输出推理结果。本发明无需额外训练,能够有效提高多模态任务的性能,并减少了部署开销。另外,利用本发明的技术,可以通过融合不同视觉编码器的优势,显著提升多模态大模型的视觉感知效果,同时降低计算资源需求。本发明可广泛应用于人工智能领域。

    一种量化模型的测试方法、系统、设备及介质

    公开(公告)号:CN118628872A

    公开(公告)日:2024-09-10

    申请号:CN202410581410.3

    申请日:2024-05-11

    Abstract: 本发明公开了一种量化模型的测试方法、系统、设备及介质,其中,该测试方法通过对图像数据集进行预处理及标签标注,得到标注数据集;通过预训练模型对标注数据集进行推理识别,得到识别输出集和完整评估结果;根据识别输出集,对标注数据集进行信息熵压缩,得到压缩测试集;通过预训练模型对压缩测试集进行评估识别,得到压缩评估结果,以及,通过量化模型对压缩测试集进行量化识别,得到量化评估结果;根据完整评估结果和压缩评估结果,对量化评估结果进行性能反演,得到量化模型的性能反演结果。该测试方法可以有效提高模型测试的应用范围,减少模型测试所需的测试耗时和样本存储空间。本发明涉及模型量化技术领域。

Patent Agency Ranking