-
公开(公告)号:CN116361509A
公开(公告)日:2023-06-30
申请号:CN202310217049.1
申请日:2023-03-02
Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06F16/75 , G06F16/735 , G06F16/783
Abstract: 本申请涉及视频分类技术领域,特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤:S100,抽取目标视频vid的视频时序特征Fts;将Fts进行聚合得到Fv;S200,将vid转换为wav格式的音频数据aud;抽取aud的音频时序特征Fas;将Fas进行聚合得到Fa;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息textocr,并结合vid的文本标题texttitle获取vid的第三特征向量Ft;S400,将Fv、Fa和Ft输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果。本发明实现了对短视频内容的准确分类。
-
公开(公告)号:CN116206295A
公开(公告)日:2023-06-02
申请号:CN202310196542.X
申请日:2023-03-02
Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06V20/60 , G06V10/22 , G06V10/426 , G06V10/74 , G06F16/583 , G06V10/776 , G06V10/82
Abstract: 本申请涉及计算机视觉技术领域,特别是涉及一种LOGO识别系统。该系统包括存储器,所述存储器存储有LOGO数据库,所述LOGO数据库由至少两个LOGO子数据库组成,不同LOGO子数据库对应的LOGO宽高比例范围不同;每个LOGO子数据库存储有对应LOGO的特征向量,每个LOGO子数据库中LOGO对应的特征向量的存储位置标号与对应的LOGO面积占比正相关或负相关;所述系统还包括处理器和存储有计算机程序的存储介质,当所述计算机程序被处理器执行时,实现对应的LOGO识别方法。本发明能够快速识别出图像和视频数据中的LOGO。
-
公开(公告)号:CN113158656B
公开(公告)日:2024-05-14
申请号:CN202011561236.4
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/30 , G06V30/40 , G06V30/18
Abstract: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
公开(公告)号:CN113987264A
公开(公告)日:2022-01-28
申请号:CN202111266325.0
申请日:2021-10-28
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/738 , G06F16/75 , G06F16/783 , G10L15/26 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种视频摘要生成方法、装置、设备、系统及介质。其中,图像处理方法包括:获取目标视频对应的多个视频片段;提取每个视频片段对应的多模态视频特征;基于多模态视频特征,计算每个视频片段的重要性得分;基于多个视频片段和每个视频片段的重要性得分,生成目标视频的摘要视频。根据本公开实施例,能够基于多个模态的特征,准确的生成目标视频的摘要视频。由此,当用户浏览视频摘要时,能准确的掌握目标视频的主要内容,因此,对于海量的目标视频,也可以满足用户快速且准确的从海量的目标视频中获取主要内容的需求。
-
公开(公告)号:CN113158656A
公开(公告)日:2021-07-23
申请号:CN202011561236.4
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/30 , G06K9/00 , G06K9/46
Abstract: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
公开(公告)号:CN112650867A
公开(公告)日:2021-04-13
申请号:CN202011561238.3
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/535 , G06F16/583
Abstract: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
-
公开(公告)号:CN112650867B
公开(公告)日:2024-09-24
申请号:CN202011561238.3
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/535 , G06F16/583
Abstract: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
-
公开(公告)号:CN117409431A
公开(公告)日:2024-01-16
申请号:CN202311412797.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V30/413 , G06V30/146 , G06V30/19
Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。
-
公开(公告)号:CN117407754A
公开(公告)日:2024-01-16
申请号:CN202311415357.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/214 , G06F18/22 , G06N3/09
Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。
-
公开(公告)号:CN116166843A
公开(公告)日:2023-05-26
申请号:CN202310200445.3
申请日:2023-03-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/783 , G06F40/289 , G06F18/22
Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。
-
-
-
-
-
-
-
-
-