基于多维度视频信息交互的视频时刻检索方法

    公开(公告)号:CN118349702A

    公开(公告)日:2024-07-16

    申请号:CN202410529125.7

    申请日:2024-04-29

    Abstract: 本发明公开了一种基于多维度视频信息交互的视频时刻检索方法,主要解决现有技术难以提取视频中多样性定位内容导致跨模态对齐困难和检索不精确的问题。其实现方案为:使用公开的视频时刻检索数据集构建训练集;构建包括文本特征提取模块、视频特征提取模块、多维度二维时序特征图生成模块、场景分割候选时刻表示增强模块、跨模态交互和时刻检索模块的视频时刻检索网络;利用训练集通过梯度下降法对视频时刻检索网络进行训练;利用训练好的网络前向计算完成文本相对应的视频时刻的检索。本发明通过多维度视频信息交互,构建多维度二维时序特征图并增强特征表示,促进了跨模态语义匹配,提高了模型的检索性能,可用于智慧教育和安全监控。

    一种基于远眼的双视角注视估计方法及系统

    公开(公告)号:CN118865476A

    公开(公告)日:2024-10-29

    申请号:CN202411072035.6

    申请日:2024-08-06

    Abstract: 本发明公开了一种基于远眼的双视角注视估计方法及系统,包括以下步骤;步骤1:获取双视角人脸图像,并对图像进行预处理,得到双视角注视估计数据集;步骤2:对双视角人脸和远眼图像进行特征提取;步骤3:构建双视角注视估计模型,输入双视角人脸和眼睛特征图估计视线方向;步骤4:利用所述双视角注视估计数据集对所述双视角注视估计模型进行训练;步骤5:使用训练完成双视角注视估计模型进行注视估计。本发明视线估计精度较高,达到了目前最好的估计精度,且首次发现了在双视场景下仅使用远眼图像的效果优于使用双眼图像。

    基于状态信息分离的胸部X光影像报告生成方法

    公开(公告)号:CN118447993A

    公开(公告)日:2024-08-06

    申请号:CN202410645444.4

    申请日:2024-05-23

    Abstract: 本发明提出了一种基于状态信息分离知识图谱增强的胸部X光影像报告生成方法,实现步骤为:获取训练和测试样本集;构建基于状态信息分离知识图谱增强的胸部X光影像报告生成网络模型并对其进行迭代训练;获取胸部X光影像报告生成结果。本发明在对胸部X光影像报告生成网络模型进行训练和胸部X光影像报告生成结果的过程中,分离子图生成模块通过三元组构建异常子图和正常子图,利用两个状态信息分离的子图分别学习异常信息和正常信息内部的关系,避免了现有技术因不同状态信息混杂导致的相互干扰,减小了模型需要学习知识与生成的报告之间的差异,从而提高了生成报告的准确性。

Patent Agency Ranking