一种多模态大语言模型的大小模型协同训练方法及装置

    公开(公告)号:CN119514645A

    公开(公告)日:2025-02-25

    申请号:CN202411350617.6

    申请日:2024-09-26

    Abstract: 本发明提供一种多模态大语言模型的大小模型协同训练方法及装置,该方法包括:将图像、视频、音频等多模态样本输入多模态共享编码器生成多模态令牌;将文本样本输入文本编码器得到文本令牌;将不同模态的多模态令牌与文本令牌相结合,通过预训练的小型多模态大语言模型前向蒸馏预训练的大型多模态大语言模型并训练投影层得到训练后的投影层,该投影层连接于小型和大型多模态大语言模型之间;利用训练后的投影层和预训练的大型多模态大语言模型反向蒸馏小型多模态大语言模型,由此训练过程同时得到训练后的大型和小型多模态大语言模型。不仅提升了大型多模态大语言模型的跨模态对齐能力,还通过知识蒸馏增强了小型多模态大语言模型的性能。

    一种基于弱监督学习的图像语义解析方法

    公开(公告)号:CN103336969B

    公开(公告)日:2016-08-24

    申请号:CN201310214812.1

    申请日:2013-05-31

    Inventor: 卢汉清 刘静 刘洋

    Abstract: 本发明公开了一种基于弱监督学习的图像语义解析方法,用以解决在给定大量用户标注图像基础上,将图像分割成一系列具有单一语义的完整区域,同时对各区域实现语义标注的问题。本发明包括:联合谱聚类与判别式聚类的双重聚类方法,对由过分割方法得到的图像子区域进行聚类;同时,利用图像级别标注与图像区域级别标注的对应约束关系,构建以误差最小化为目标的弱监督学习模型,为各图像子区域的聚类集合分配语义标签。此外,通过判别式聚类学习到的多类分类器,可以实现针对没有标签信息图像的语义解析。本发明不仅可以给图像添加语义标签,还可以将标签添加到图像中的对应区域,实现更细粒度的图像语义理解。

    联合显著性检测与判别式学习的目标前景协同分割方法

    公开(公告)号:CN103390279A

    公开(公告)日:2013-11-13

    申请号:CN201310316589.1

    申请日:2013-07-25

    Inventor: 卢汉清 刘静 李勇

    Abstract: 本发明公开了一种联合显著性检测与判别式学习的目标前景协同分割方法,包括:步骤1,将图像集中的每幅图像过分割成多个超像素块,并对每个超像素块提取特征;步骤2,将图像集中共有的显著性区域提取出来作为目标前景,而将非显著性区域和具有显著性但不是该图像集中共有的区域作为背景区域,其中采用低秩矩阵分解进行图像的显著性检测,采用逻辑回归来选择共有的显著性区域作为最终的目标。本发明通过低秩矩阵分解可以有效地检测显著性区域,去除背景一致性的影响,而判别式学习可以提取出共有显著性区域。低秩矩阵分解与判别式学习过程在统一的框架下联合优化,两者相互影响,共同提升。最终可以获得共有显著性区域作为目标前景区域。

    基于视频监控网络的视频自动浓缩方法

    公开(公告)号:CN102256065B

    公开(公告)日:2012-12-12

    申请号:CN201110208090.X

    申请日:2011-07-25

    Abstract: 一种基于视频监控网络的视频自动浓缩方法,其是从两个具有重叠区域的摄像机获得第一视频源和第二视频源并对运动目标分割和跟踪,提取背景图像和视频监控网络运动轨迹;根据背景图像生成基于视频监控网络的全景图像,得到两个摄像机各自对应于全景图像的投影矩阵并实时更新基于视频监控网络背景的全景图像;利用两个摄像机全景图像的投影矩阵,把轨迹投影到全景图像空间得到投影轨迹;:采用图匹配,基于随机游走思想对两个摄像机的视频源的投影轨迹匹配,得到匹配轨迹对,对重叠区域的匹配轨迹进行选择和融合,得到完整的大场景轨迹;对大场景轨迹按时间重新排列,在全景图像上对完整的大场景轨迹进行展现,得到基于全景图像的视频浓缩。

    一种基于嵌入式系统的激光远距离自动检测方法

    公开(公告)号:CN1979219A

    公开(公告)日:2007-06-13

    申请号:CN200510126318.5

    申请日:2005-12-07

    Inventor: 谭民 赵晓光 刘静

    Abstract: 本发明涉及自动检测技术,是一种基于嵌入式系统的激光远距离自动检测方法。该方法利用ARM9微控制器体积小和高性能的优点,作为距离检测装置的核心,自动控制激光测距仪的激光开闭和距离测量,并自动记录和存储测量数据,避免了手动操作中可能出现的错误记录,提高了距离测量的效率,准确性和实时性,实现了方便、高效而准确的完成距离测量任务。本发明方法所用装置,结构简单,体积小巧,可以直接安装在微型直升飞机,车辆等平台上,进行静止或移动目标的远距离测量和数据存储。

    视频问答的交互方法及系统

    公开(公告)号:CN112860847B

    公开(公告)日:2022-08-19

    申请号:CN202110069976.4

    申请日:2021-01-19

    Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。

    视频量化编解码方法、装置、设备及存储介质

    公开(公告)号:CN114598874A

    公开(公告)日:2022-06-07

    申请号:CN202210068433.5

    申请日:2022-01-20

    Abstract: 本发明提供一种视频量化编解码方法、装置、设备及存储介质,该方法包括:将原始视频的N个视频帧输入视频处理模型的编码模块,输出M个视频帧的量化特征编码,M和N均为正整数,M小于或等于N;将所述M个视频帧的量化特征编码输入到视频处理模型的解码模块,将所述M个视频帧的量化特征编码映射为M个第一视频帧特征;根据所述M个第一视频帧特征,通过时间轴注意力机制,重建每个第一视频帧特征对应的第一参考帧特征,得到M个第一参考帧特征;基于所述M个第一视频帧特征和所述M个第一参考帧特征,输出重构视频。

    视频问答的交互方法及系统

    公开(公告)号:CN112860847A

    公开(公告)日:2021-05-28

    申请号:CN202110069976.4

    申请日:2021-01-19

    Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。

    融合地理信息与视觉信息的网络新闻检索系统及方法

    公开(公告)号:CN102364473B

    公开(公告)日:2013-11-20

    申请号:CN201110352002.3

    申请日:2011-11-09

    Abstract: 本发明提出了一种融合地理信息与视觉信息的网络新闻检索系统及方法。该系统包括:数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。本发明的系统及方法综合利用了地理位置信息和视觉信息对网络新闻进行描述与展示,为网络用户提供基于地理位置的多媒体新闻检索,同时综合了新闻地点-新闻事件的关系、新闻地点的相关性以及新闻事件之间的关系,从而提供给用户一个更生动、更富信息的新闻搜索结果。

    基于语义分析的网络图像检索方法

    公开(公告)号:CN101751447A

    公开(公告)日:2010-06-23

    申请号:CN200910089536.4

    申请日:2009-07-22

    Abstract: 本发明涉及基于语义分析的网络图像检索方法,对用户输入的查询图像提取底层特征。对每种特征进行基于内容的图像检索找到视觉上相似的网络图像集。用网络图像集中各图像所对应的相关文本信息进行语义学习得到查询图像的语义表示。判断各种特征所对应检索图像集在文本信息上的语义一致性,以语义一致性衡量各种特征的描述能力,并赋予不同的置信度。用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索得到图像库中每幅图像与查询图像的语义相关性;用底层特征对图像库基于内容的图像检索,得到图像库中每幅图像与查询图像视觉上的相关性;由线性函数把语义和视觉相关性融合,返回给用户的图像在语义层面上和视觉层面上都具有相似性。

Patent Agency Ranking