-
公开(公告)号:CN115563342A
公开(公告)日:2023-01-03
申请号:CN202211277485.X
申请日:2022-10-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 人民中科(北京)智能技术有限公司
IPC: G06F16/75 , G06F16/783 , G06F16/738
Abstract: 本发明公开了一种视频主题检索的方法、系统、设备及存储介质,用以解决现有技术样例视频的相似度计算是在较低级别上进行的问题。方法包括:S1、预训练跨模态视觉语言模型,并对所述跨模态视觉语言模型进行调整;S2、对给定的样例视频集合的场景进行分割,并对分割后的各样例视频片段的主题进行聚类;S3、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索,并对检索结果进行聚合和排序后输出。系统包括:预训练和调整模块、分割和聚类模块、输出模块。计算机设备包括:存储器、处理器,以及计算机程序。包含计算机可执行指令的存储介质用于执行视频主题检索的方法。
-
公开(公告)号:CN119649170A
公开(公告)日:2025-03-18
申请号:CN202510167902.2
申请日:2025-02-17
Applicant: 人民中科(北京)智能技术有限公司
IPC: G06V10/774 , G06V10/82 , G06N3/045 , G06N3/096 , G06N3/0895
Abstract: 本发明提供了基于多提示学习的弱监督底层视觉颜色成像方法和装置。所述方法包括获取六种数据集,生成训练集和相似任务的弱监督提示信息;构建基于深度学习大模型的端到端CLIP网络作为教师网络,利用训练集和弱监督提示信息,对教师网络进行预训练,得到预训练后的教师网络;构建学生网络,利用训练集、KL散度和均方误差损失函数学习多任务共同提示信息,利用多任务共同提示信息,根据知识蒸馏函数对所述学生网络进行知识蒸馏,得到蒸馏后的学生网络;将颜色相关任务输入蒸馏后的学生网络,输出对应任务的目标图像。以此方式,仅用单一模型结构统一底层颜色任务并只需学习极少量参数,减小了计算量的开销,获得更好的颜色特征表示。
-
公开(公告)号:CN119785129A
公开(公告)日:2025-04-08
申请号:CN202510292848.4
申请日:2025-03-13
Applicant: 人民中科(北京)智能技术有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/42 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/0895
Abstract: 本公开属于计算机视觉技术领域,具体涉及一种组合零样本图像分类及模型的训练方法和装置。其中组合零样本图像分类模型的训练方法包括:获取图像分类数据集,并划分为训练集和测试集;构建神经网络模型,基于所述训练集对所述神经网络模型进行训练,生成所述组合零样本图像分类模型,其中,所述神经网络模型至少包括组合识别分支和基元识别分支,所述组合识别分支用于基于训练集样本的全局特征获取每个样本的组合特征表示,所述基元识别分支用于通过挖掘训练样本的全局基元关系得到解耦后的基元特征以进行基元的识别,所述基元包括属性和对象。本公开提高组合零样本图像分类的性能。
-
公开(公告)号:CN114880514B
公开(公告)日:2022-11-01
申请号:CN202210781107.9
申请日:2022-07-05
Applicant: 人民中科(北京)智能技术有限公司
IPC: G06F16/583 , G06F16/58 , G06V10/75
Abstract: 本申请公开了一种图像检索方法、装置以及存储介质。其中,图像检索方法,包括:接收检索信息;确定与所述检索信息关联的文本信息以及图像信息;对所述文本信息以及所述图像信息进行基于注意力机制的特征表示,生成与所述检索信息对应的图像检索特征;以及根据所述图像检索特征,检索与所述检索信息匹配的图像。
-
公开(公告)号:CN118841041A
公开(公告)日:2024-10-25
申请号:CN202411219212.9
申请日:2024-09-02
Applicant: 人民中科(北京)智能技术有限公司
IPC: G10L25/81 , G10L15/08 , G10L15/26 , G10L25/78 , G06F18/2321 , G06F18/2134
Abstract: 本发明涉及音频数据处理技术领域,且公开了一种音频数据自动化片段对齐标注的技术方法,S1,输入后的音频/语音数据首先通过人声分离模块将原始数据分离为音乐音轨和人声音轨两个文件;S2,人声音轨进入有效片段切分模块,模块只使用人声音轨数据进行音频切分;S3,切分后的有效人声片段将被输入到自动语音识别(ASR)模块进行文本转录;S4,片段聚类模块使用DBSCAN聚类算法对文字识别结果进行文本聚类,聚类时使用的特征是文本的TF‑IDF特征。该音频数据自动化片段对齐标注的技术方法,可以极大程度的降低人工标注的时间成本和人力成本,自动化的提供高质量的音频标注数据,推动了音频比对模型的进一步发展与应用。
-
公开(公告)号:CN118485051A
公开(公告)日:2024-08-13
申请号:CN202410329444.3
申请日:2024-03-21
Applicant: 人民中科(黑龙江)数字产业有限公司 , 人民中科(北京)智能技术有限公司
IPC: G06F40/186 , G06F40/216 , G06F16/35 , G06F18/241 , G06F18/22 , G06N3/0455
Abstract: 本发明涉及一种教育公文生成方法、装置、计算机设备及存储介质,其中,该方法包括:获取教育公文生成需求信息,其中,所述需求信息中包括待生成教育公文的类型和描述;将所述需求信息输入至训练好的大语言模型中,生成所述需求信息对应的教育公文,其中,所述训练好的大语言模型为基于不同类型的教育公文的结构、提示词模板以及主题库进行训练而得到的,所述训练好的大语言模型的输入为所述需求信息,输出为所述需求信息对应的教育公文。通过本申请,解决了相关技术缺乏对垂直领域语义概念的关注而导致预训练大语言模型文本生成中内容不符合要求,结构不准确的问题,实现了提高生成教育公文的质量和准确度的效果。
-
公开(公告)号:CN118283380A
公开(公告)日:2024-07-02
申请号:CN202410329443.9
申请日:2024-03-21
Applicant: 人民中科(黑龙江)数字产业有限公司 , 人民中科(北京)智能技术有限公司
IPC: H04N21/84 , H04N21/845 , H04N21/44 , H04N21/234
Abstract: 本发明涉及一种视频描述生成方法、装置、计算机设备及存储介质,该方法包括:从目标视频中采样得到视频帧序列;从视频帧序列中提取出多个视觉特征以及语义概念特征;根据多个视觉特征和语义概念特征进行多特征融合编码,得到视频编码特征;基于一组可学习的事件查询以及视频编码特征,使用解码器进行解码,得到多个事件建议表示;利用多个子任务头对多个事件建议表示进行并行解码,得到事件建议集合;从事件建议集合中筛选出目标事件建议作为目标视频的描述结果。通过本申请,解决了相关技术中的密集视频描述方法缺乏对语义概念的关注与利用导致的密集视频描述中事件定位以及事件描述不准确的问题,实现了提升密集视频描述准确度的效果。
-
公开(公告)号:CN114880514A
公开(公告)日:2022-08-09
申请号:CN202210781107.9
申请日:2022-07-05
Applicant: 人民中科(北京)智能技术有限公司
IPC: G06F16/583 , G06F16/58 , G06V10/75
Abstract: 本申请公开了一种图像检索方法、装置以及存储介质。其中,图像检索方法,包括:接收检索信息;确定与所述检索信息关联的文本信息以及图像信息;对所述文本信息以及所述图像信息进行基于注意力机制的特征表示,生成与所述检索信息对应的图像检索特征;以及根据所述图像检索特征,检索与所述检索信息匹配的图像。
-
-
-
-
-
-
-