人脸融合方法、系统、设备、介质和程序产品

    公开(公告)号:CN119339423A

    公开(公告)日:2025-01-21

    申请号:CN202411435650.9

    申请日:2024-10-15

    Abstract: 本公开提供了一种人脸融合方法、系统、设备、介质和程序产品,该人脸融合方法包括:获取至少两张待融合人脸图像的实际关键点;基于预设关键点和实际关键点,得到待融合人脸图像对应的位置调整系数;基于位置调整系数对待融合人脸图像进行调整,以得到调整后的待融合人脸图像;对调整后的待融合人脸图像进行人脸融合处理,以得到目标人脸融合图像。本公开通过预设关键点和待融合人脸图像的实际关键点,以得到位置调整系数,根据位置调整系数对待融合人脸图像进行调整,再进行人脸融合处理,改善了人脸融合图像的质量,提升了融合效果,降低了人脸融合处理的难度和资源消耗。

    一种人形机器人控制方法、系统、存储介质和程序产品

    公开(公告)号:CN119238533A

    公开(公告)日:2025-01-03

    申请号:CN202411651055.9

    申请日:2024-11-18

    Abstract: 本发明提供一种人形机器人控制方法、系统、存储介质和程序产品,属于计算机视觉领域。其中方法包括:预处理专家动作数据,将专家动作数据处理成和目标机器人骨骼架构相当的专家数据;在仿真环境中采用人形结构搭建机器人,配置机器人的关节参数,每个关节自由度由独立的物理控制模块进行控制;构建机器人的策略表征方法,包括状态空间、动作空间、奖励函数、多帧式控制方式;对机器人进行初始化;最小化每帧上的机器人动作与专家动作间的差异,最大化奖励函数,驱动机器人学习。本发明可以辅助人形机器人的学习过程,使得机器人可以在完成任务的同时拟人化,并且训练速度有所提升。

    一种视觉Transformer模型设计方法、装置、存储介质和程序产品

    公开(公告)号:CN118840414A

    公开(公告)日:2024-10-25

    申请号:CN202411038198.2

    申请日:2024-07-30

    Abstract: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。

    一种基于多类文本表征的知识分类树融合方法及计算机可读存储介质

    公开(公告)号:CN118708721A

    公开(公告)日:2024-09-27

    申请号:CN202410116679.4

    申请日:2024-07-05

    Abstract: 本发明提供一种基于多类文本表征的知识分类树融合方法及计算机可读存储介质,包括:获取知识体系进行知识表示,获得知识分类树;基于所述知识分类树进行文本向量化表征,获得知识向量;基于所述知识向量,进行知识融合;基于所述知识融合,进行知识存储;基于所述知识存储,进行知识可视化。跨知识体系的融合的方法大多是基于规则,对于复杂的知识结点表示效果不佳。知识分类树只能表示上下位关系,无法提供丰富的语义信息。针对上述问题,本发明提出了一种基于多类文本表征的知识分类树融合方法及计算机可读存储介质,使得整个知识分类树融合流程完备,自动化程度高,可信性强,还兼具了知识体系树可视化的功能,能够更清晰地浏览整个知识体系。

    一种基于缺陷描述的缺陷分类方法及系统

    公开(公告)号:CN118585876A

    公开(公告)日:2024-09-03

    申请号:CN202410487378.2

    申请日:2024-04-22

    Abstract: 本发明提供一种基于缺陷描述的缺陷分类方法及系统,其中方法包括以下步骤:获得缺陷图像和对应的缺陷描述文本;将所述缺陷图像送入视觉编码器中进行编码,得到视觉特征;将所述缺陷描述文本送入语义编码器中进行编码,得到语义特征;将所述视觉特征送入多层感知机,经过激活函数,得到在每个候选标签上的概率预测p1,计算损失L1;将所述视觉特征和所述语义特征进行融合后,经过激活函数,得到在每个候选标签上的概率预测p2,计算损失L2;对所述损失L1和所述损失L2进行融合,得到最终损失;对所述概率预测p1和所述概率预测p2进行融合,取融合后最大概率值所属标签为缺陷预测结果。本发明能够更加准确地界定不同类别之间的区别,提高分类的准确率。

    视频生成方法及装置
    8.
    发明公开

    公开(公告)号:CN118158488A

    公开(公告)日:2024-06-07

    申请号:CN202410138544.8

    申请日:2024-01-31

    Abstract: 本发明公开一种视频生成方法及装置,该方法包括:接收用户提交的视频文件和音频文件,视频文件的所有视频帧包含人脸图像;分别对视频文件和音频文件按照设定长度进行切分,得到多个一一对应的原始视频片段和原始音频片段;获取与各原始音频片段对应的音频特征;将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染,得到渲染后的视频图像;将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案,可以快速高效地生成虚拟人脸视频,提升用户对虚拟现实产品的实时体验。

    基于语音交互的自动测试与评分系统、方法、设备及介质

    公开(公告)号:CN117975961A

    公开(公告)日:2024-05-03

    申请号:CN202410124390.7

    申请日:2024-01-29

    Abstract: 本发明公开了一种基于语音交互的自动测试与评分系统、方法、设备及介质,该自动测试与评分系统包括:试题播放模块、收音识别模块与评分模块,三个模块之间通信连接;试题播放模块,用于控制语音播报装置播放预先录制的若干个待测试题对应的第一音频;收音识别模块,用于对接收到的待测试者对应于第一音频反馈的第二音频进行语音识别,得到语音识别结果并发送;评分模块,用于接收语音识别结果与待测试题的预设标准结果进行对比,生成目标评分。本发明利用收音识别模块对自动控制播放待测试题对应的第一音频反馈的第二音频进行语音识别,基于评分模块对语音识别结果进行评分,解决了语音交流测试依赖于人工进行且人工评分一致性不稳定的问题。

    一种用于增强检索效果的法律文本多标签生成方法及装置

    公开(公告)号:CN117909519A

    公开(公告)日:2024-04-19

    申请号:CN202410092818.4

    申请日:2024-01-23

    Abstract: 本发明提供一种用于增强检索效果的法律文本多标签生成方法及装置,其中方法包括:获取法律文本和法律问题,构建用于训练的数据集;对所述数据集进行预处理,得到法律文本标签和法律问题数据;基于所述法律文本标签和法律问题数据,训练得到多标签分类模型;基于所述多标签分类模型,构建知识库检索模型;将所述知识库检索模型整合到RAG框架中,得到RAG框架下的法律文本多标签生成模型;对所述法律文本多标签生成模型进行评估和优化。本发明减少了因法典数量庞大带来的检索噪音,优化了法律信息检索的各个环节,显著提升了法律信息检索系统检索的精确度和效率,减少了计算资源的消耗。

Patent Agency Ranking