一种人机混合智能的交互式动态人物肖像检索方法

    公开(公告)号:CN118643176A

    公开(公告)日:2024-09-13

    申请号:CN202410785602.6

    申请日:2024-06-18

    Abstract: 本发明属于动态人脸检索领域,涉及一种人机混合智能的交互式动态人物肖像检索方法,包括:获取画师绘制的素描,将素描输入生成模型,得到生成肖像;将素描和生成肖像分别输入深度神经网络模型,得到当前素描和生成肖像的嵌入向量和关键点信息并进行融合;计算融合后的嵌入向量和联合关键点信息同所有待检索肖像的嵌入向量和关键点信息的匹配分数,根据匹配分数对待检索肖像进行升序排序,并将top‑k张肖像实时展示给画师;本发明采用生成联合检索框架,从有限的素描图像中推断并生成完整的图像表示,能够填补素描中的缺失细节,增强原始素描的信息量,为检索提供了更多可用于比较和匹配的视觉特征,从而提高了检索的准确性和效率。

    一种基于生成式语言模型的多模态人脸检索方法

    公开(公告)号:CN118656511A

    公开(公告)日:2024-09-17

    申请号:CN202410798511.6

    申请日:2024-06-20

    Abstract: 本发明属于人脸识别领域,具体涉及一种基于生成式语言模型的多模态人脸检索方法,包括:建立生成式语言模型,对生成式语言模型进行训练,向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索,得到检索结果。本发明构建了一个强大建模能力的生成式语言模型,可以获取语义更加丰富的文本表示,并通过引入特殊标记,使文本描述和图像内容可以更好的互补,增强了模型的理解能力,还实现了多任务的联合训练,包括文本生成、视觉问答、人脸检测和人脸检索,不同任务的学习可以相互促进,提高模型的泛化能力,弥补了基于生成式语言模型进行人脸检测和人脸检索任务的空白。

    一种基于大语言模型和语法树的人脸图像标题生成方法

    公开(公告)号:CN117576498A

    公开(公告)日:2024-02-20

    申请号:CN202311370479.3

    申请日:2023-10-20

    Abstract: 本发明属于大语言模型应用领域和数据集标注领域,涉及一种基于大语言模型和语法树的人脸图像标题生成方法,所述方法包括获取人脸图像,并使用人脸检测模型进行人脸区域检测;使用神经网络模型对人脸图像进行属性预测,获取人脸图像各个视觉属性并生成人脸特征表;使用概率上下文无关算法对人脸特征表构造标题语法树,生成多条上下文无关的语句;使用预训练的大规模语言模型,分别对每条上下文无关的语句进行改写,生成具有自然语言表达方式的描述语句;使用多模态模型对多条描述语句进行评分,选择评分最高的描述语句,作为对应人脸图像标题。本发明能够自动高质量生成人脸图像和自然语言描述之间的匹配数据对。有利于相关任务的性能提升。

Patent Agency Ranking