-
公开(公告)号:CN114880496A
公开(公告)日:2022-08-09
申请号:CN202210471183.X
申请日:2022-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司
IPC: G06F16/432 , G06F16/435 , G06F16/483 , G06F40/279 , G06F40/30 , G06V40/16 , G06V20/40 , G06V20/62 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06N7/00 , G10L15/22
Abstract: 本公开涉及一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质,本公开通过音频数据得到语音识别文本、通过视频数据的关键帧得到字幕文本;针对上述语音识别文本及字幕文本从实体、关键词、语义标签三方面提取话题信息,实现了基于文本数据的全方面、多粒度的文本话题提取;针对视频数据的关键帧,从人脸标签及图片标签两方面提取话题信息,实现了基于图像数据的视觉话题提取;本公开实施例充分考虑了视频数据的多模态特征,全面的分析视频话题,提高了话题分析的准确性;进一步的,通过准确的话题分析,可以使受众快速有效的获取视频的主要信息,提升了工作效率,并可以广泛应用于视频个性化推荐、视频内容检索等场景。
-
公开(公告)号:CN114880496B
公开(公告)日:2024-12-24
申请号:CN202210471183.X
申请日:2022-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司
IPC: G06F16/432 , G06F16/435 , G06F16/483 , G06F40/279 , G06F40/30 , G06V40/16 , G06V20/40 , G06V20/62 , G06V10/774 , G06V10/82 , G06N3/0442 , G06N3/08 , G06N7/01 , G10L15/22
Abstract: 本公开涉及一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质,本公开通过音频数据得到语音识别文本、通过视频数据的关键帧得到字幕文本;针对上述语音识别文本及字幕文本从实体、关键词、语义标签三方面提取话题信息,实现了基于文本数据的全方面、多粒度的文本话题提取;针对视频数据的关键帧,从人脸标签及图片标签两方面提取话题信息,实现了基于图像数据的视觉话题提取;本公开实施例充分考虑了视频数据的多模态特征,全面的分析视频话题,提高了话题分析的准确性;进一步的,通过准确的话题分析,可以使受众快速有效的获取视频的主要信息,提升了工作效率,并可以广泛应用于视频个性化推荐、视频内容检索等场景。
-
公开(公告)号:CN114817636A
公开(公告)日:2022-07-29
申请号:CN202210469600.7
申请日:2022-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司
IPC: G06F16/783 , G06V20/40 , G06V20/62 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种视频检测方法、装置、设备及计算机可读存储介质,该方法包括:获取待检测视频的多种特征信息;基于所述多种特征信息,生成所述待检测视频的融合特征信息;基于所述待检测视频的融合特征信息,对所述待检测视频的安全性进行检测,得到检测结果。本公开通过充分利用视频数据中的多种模态维度的特征信息得到视频的融合特征信息,根据融合特征信息对待检测视频内容进行检测,能够发现各模态维度信息之间关联而形成的隐性安全问题,大大提高了视频检测方法的准确性。
-
公开(公告)号:CN113158656B
公开(公告)日:2024-05-14
申请号:CN202011561236.4
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/30 , G06V30/40 , G06V30/18
Abstract: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
公开(公告)号:CN113987264A
公开(公告)日:2022-01-28
申请号:CN202111266325.0
申请日:2021-10-28
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/738 , G06F16/75 , G06F16/783 , G10L15/26 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种视频摘要生成方法、装置、设备、系统及介质。其中,图像处理方法包括:获取目标视频对应的多个视频片段;提取每个视频片段对应的多模态视频特征;基于多模态视频特征,计算每个视频片段的重要性得分;基于多个视频片段和每个视频片段的重要性得分,生成目标视频的摘要视频。根据本公开实施例,能够基于多个模态的特征,准确的生成目标视频的摘要视频。由此,当用户浏览视频摘要时,能准确的掌握目标视频的主要内容,因此,对于海量的目标视频,也可以满足用户快速且准确的从海量的目标视频中获取主要内容的需求。
-
公开(公告)号:CN113158656A
公开(公告)日:2021-07-23
申请号:CN202011561236.4
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/30 , G06K9/00 , G06K9/46
Abstract: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
公开(公告)号:CN112650867A
公开(公告)日:2021-04-13
申请号:CN202011561238.3
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/535 , G06F16/583
Abstract: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
-
公开(公告)号:CN112650867B
公开(公告)日:2024-09-24
申请号:CN202011561238.3
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/535 , G06F16/583
Abstract: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
-
公开(公告)号:CN117409431A
公开(公告)日:2024-01-16
申请号:CN202311412797.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V30/413 , G06V30/146 , G06V30/19
Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。
-
公开(公告)号:CN117407754A
公开(公告)日:2024-01-16
申请号:CN202311415357.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/214 , G06F18/22 , G06N3/09
Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。
-
-
-
-
-
-
-
-
-