一种多模态模型视觉感知能力增强方法、设备及介质

    公开(公告)号:CN119809925A

    公开(公告)日:2025-04-11

    申请号:CN202411826999.5

    申请日:2024-12-12

    Abstract: 本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质,其中方法包括:采集图像数据,并根据图像提出文本问题;挑选基于同一语言模型训练的多个多模态语言大模型,并合并语言模型的参数;基于输入图像,利用多个视觉编码器提取视觉特征;输入文本,通过语言模型对输入文本进行特征提取,获得文本特征;拼接视觉特征与文本特征,获得融合特征;将融合特征输入语言模型进行推理,输出推理结果。本发明无需额外训练,能够有效提高多模态任务的性能,并减少了部署开销。另外,利用本发明的技术,可以通过融合不同视觉编码器的优势,显著提升多模态大模型的视觉感知效果,同时降低计算资源需求。本发明可广泛应用于人工智能领域。

    一种吞咽造影视频微动作识别与定位方法及电子设备

    公开(公告)号:CN119942635A

    公开(公告)日:2025-05-06

    申请号:CN202411922577.8

    申请日:2024-12-25

    Abstract: 本发明公开了一种吞咽造影视频微动作识别与定位方法及电子设备,其中方法包括:确定吞咽造影视频中的解剖学关键点并提取关键点序列,获取喉部的空间位置和运动趋势,为微动作识别与定位提供结构化指导;提取吞咽造影视频的外观特征;将关键点序列与外观特征进行融合,通过多模态信息互补提升微动作识别与定位模型对细粒度动作的辨别能力;设计动作分类与定位的联合优化策略,预测微动作类别及其时序边界,实现吞咽微动作的精准识别与定位。本发明过融合视频时序特征与解剖学关键点序列信息构建统一分析框架,利用关键点序列引导模型聚焦关键区域和时段,进而实现精准的微动作识别与定位。

    一种主动聊天机器人构建方法、设备及介质

    公开(公告)号:CN119940407A

    公开(公告)日:2025-05-06

    申请号:CN202411848000.7

    申请日:2024-12-16

    Abstract: 本发明公开了一种主动聊天机器人构建方法、装置、设备及介质,其中方法包括:构建以用户为中心的聊天质量评估器,用于评估聊天机器人对用户背景信息、聊天偏好的主动感知能力;构建用户背景数据集,用来让大模型扮演不同背景身份的用户智能体,和聊天机器人展开多轮对话聊天;对话语料收集与迭代课程学习,用来生成高质量对话语料,并使用迭代课程学习的方法微调聊天机器人对应的大模型,以提升模型对用户背景信息、聊天偏好的主动感知能力。本发明能够让聊天机器人主动关注用户的背景信息和聊天兴趣,给出符合用户聊天偏好的回答,从而提升用户的对话参与度与满意度,改进人机交互体验。本发明可广泛应用于人工智能技术领域。

    一种文本-图像生成方法、系统、装置和存储介质

    公开(公告)号:CN117095083A

    公开(公告)日:2023-11-21

    申请号:CN202311341907.X

    申请日:2023-10-17

    Abstract: 本发明公开了一种文本‑图像生成方法、系统、装置和存储介质,属于深度学习、强化学习和计算机视觉等技术领域。其中方法包括:训练一个根据文本生成图像的模型作为基座模型;构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本‑图像生成模型。本发明通过利用人类偏好的反馈,采用强化学习来进一步微调文本‑图像生成模型,以确保根据文本生成的图像在美学、真实性和无毒性三个方面符合人类的偏好。

    一种面向吞咽造影分析的半监督关键点定位方法及设备

    公开(公告)号:CN119942049A

    公开(公告)日:2025-05-06

    申请号:CN202411922583.3

    申请日:2024-12-25

    Abstract: 本发明公开了一种面向吞咽造影分析的半监督关键点定位方法及设备,其中方法包括:获取并对吞咽造影图像进行标注,获得标注数据;设计联合优化策略,将标注数据的监督损失和未标注数据的自监督一致性损失集成在统一的训练框架中;利用未标注数据生成伪标签,并在模型训练过程中动态更新伪标签,利用有监督数据与无监督数据对模型进行联合训练;构建语义引导模块,用于辅助模型更精准地捕获关键点区域的特征;在视频处理阶段引入卡尔曼滤波算法,通过融合多帧的关键点预测结果,以实现关键点时序校准。本发明通过引入语义引导模块,增强了模型对关键点区域特征的捕获能力,并通过卡尔曼滤波优化时序一致性,有效提升了关键点定位的精度与鲁棒性。

    一种文本-图像生成方法、系统、装置和存储介质

    公开(公告)号:CN117095083B

    公开(公告)日:2024-03-15

    申请号:CN202311341907.X

    申请日:2023-10-17

    Abstract: 本发明公开了一种文本‑图像生成方法、系统、装置和存储介质,属于深度学习、强化学习和计算机视觉等技术领域。其中方法包括:训练一个根据文本生成图像的模型作为基座模型;构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本‑图像生成模型。本发明通过利用人类偏好的反馈,采用强化学习来进一步微调文本‑图像生成模型,以确保根据文本生成的图像在美学、真实性和无毒性三个方面符合人类的偏好。

Patent Agency Ranking