视频内容识别方法、装置、电子设备及存储介质

    公开(公告)号:CN112381091B

    公开(公告)日:2024-07-12

    申请号:CN202011322639.3

    申请日:2020-11-23

    Inventor: 王思博 陈益如

    Abstract: 本公开关于一种视频内容识别方法,该方法包括:从视频中获取包含有文本行的目标视频帧;对所述目标视频帧进行文字识别操作,获得所述文本行对应的文字识别结果;所述文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像;根据所述文本行区域图像,提取出所述文本行对应的文本图像特征,以及,根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像,提取出所述文本行对应的内容关联特征;根据所述文本图像特征和所述内容关联特征,确定所述文本行在所述视频中的结构化信息;所述结构化信息用于对所述视频进行视频内容识别操作。采用该方法可以解决相关技术中视频内容识别准确度不高的问题。

    多媒体资源的推荐方法、装置、电子设备及存储介质

    公开(公告)号:CN112256891A

    公开(公告)日:2021-01-22

    申请号:CN202011157425.5

    申请日:2020-10-26

    Abstract: 本公开关于一种多媒体资源的推荐方法、装置、电子设备及存储介质。该方法包括:通过从多媒体资源中获取目标图像;从所述目标图像中提取附加信息区域以及关键区域;根据所述附加信息区域在所述目标图像中的第一位置信息,以及所述关键区域在所述目标图像中的第二位置信息,生成所述目标图像的特征集合;对所述目标图像的特征集合进行分析,得到所述目标图像的观感分数;根据所述目标图像的观感分数,对所述多媒体资源进行推荐。本公开通过综合考虑附加信息区域与关键区域的物体结构关系和空间位置关系,确定附加信息区域对关键区域的影响,提升观感分数预测的准确性,从而确保对多媒体资源进行准确的推荐。

    图文匹配方法、装置、设备以及存储介质

    公开(公告)号:CN113469197B

    公开(公告)日:2024-03-22

    申请号:CN202110730062.8

    申请日:2021-06-29

    Abstract: 本公开提供一种图文匹配方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以至少解决现有技术中无法准确图文匹配结果的问题。该方法包括:获取待分析图像和待分析文本;将待分析图像和待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;图像模态内特征序列包括待分析图像中多个区域的图像模态内特征;文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征;对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,确定待分析图像和待分析文本的匹配结果。

    视频质量确定模型的训练方法、视频推荐方法及装置

    公开(公告)号:CN114299361A

    公开(公告)日:2022-04-08

    申请号:CN202111616537.7

    申请日:2021-12-27

    Abstract: 本公开涉及计算机技术领域,具体涉及一种视频质量确定模型的训练方法、视频推荐方法、装置、电子设备介质以及计算机程序产品,上述方法包括:获取视频样本;在视频样本不具有质量等级标签时,根据视频样本生成对应的第一增强样本与第二增强样本;通过待训练神经网络模型得到第一增强样本对应的预测质量等级,根据第一增强样本对应的预测质量等级确定第二增强样本的参照质量等级标签;通过待训练神经网络模型得到第二增强样本对应的预测质量等级;确定第二损失函数;根据第二损失函数训练待训练神经网络模型,得到视频质量确定模型。通过本公开实施例的技术方案,可以解决现有技术中对视频进行推荐时依赖用户行为的问题。

    图像处理模型的训练方法、图像处理方法、装置及设备

    公开(公告)号:CN114118408A

    公开(公告)日:2022-03-01

    申请号:CN202111335432.4

    申请日:2021-11-11

    Abstract: 本公开关于一种图像处理模型的训练方法、图像处理方法、装置及设备,属于人工智能技术领域。该方法包括:获取样本图文数据,所述样本图文数据包括样本图像和样本文本,所述样本图文数据中标注目标对象的第一位置信息;确定所述样本图文数据的图文特征和位置特征,所述图文特征包括所述样本图像的图像特征和所述样本文本的文本特征,所述位置特征用于表示所述目标对象在所述样本图文数据中的位置;基于所述图文特征和所述位置特征,通过初始图像处理模型预测所述目标对象的第二位置信息;基于所述第一位置信息和所述第二位置信息,更新所述初始图像处理模型,得到图像处理模型。本公开提供的方法能够提高图像处理模型的推理能力。

    图文匹配方法、装置、设备以及存储介质

    公开(公告)号:CN113469197A

    公开(公告)日:2021-10-01

    申请号:CN202110730062.8

    申请日:2021-06-29

    Abstract: 本公开提供一种图文匹配方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以至少解决现有技术中无法准确图文匹配结果的问题。该方法包括:获取待分析图像和待分析文本;将待分析图像和待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;图像模态内特征序列包括待分析图像中多个区域的图像模态内特征;文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征;对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,确定待分析图像和待分析文本的匹配结果。

    图像处理模型的训练方法、图像处理方法、装置及设备

    公开(公告)号:CN114118408B

    公开(公告)日:2024-11-26

    申请号:CN202111335432.4

    申请日:2021-11-11

    Abstract: 本公开关于一种图像处理模型的训练方法、图像处理方法、装置及设备,属于人工智能技术领域。该方法包括:获取样本图文数据,所述样本图文数据包括样本图像和样本文本,所述样本图文数据中标注目标对象的第一位置信息;确定所述样本图文数据的图文特征和位置特征,所述图文特征包括所述样本图像的图像特征和所述样本文本的文本特征,所述位置特征用于表示所述目标对象在所述样本图文数据中的位置;基于所述图文特征和所述位置特征,通过初始图像处理模型预测所述目标对象的第二位置信息;基于所述第一位置信息和所述第二位置信息,更新所述初始图像处理模型,得到图像处理模型。本公开提供的方法能够提高图像处理模型的推理能力。

    视频识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114758263A

    公开(公告)日:2022-07-15

    申请号:CN202011587360.8

    申请日:2020-12-28

    Inventor: 陈益如 丁文奎

    Abstract: 本公开关于一种视频识别方法、装置、电子设备及存储介质。该视频识别方法包括:对获取到的目标视频进行检测,得到目标视频对应的至少两个目标视频特征;其中,目标视频特征为视觉特征、文本特征或音频特征;提取每一目标视频特征与其他目标视频特征之间的目标交互特征,得到目标视频对应的至少两个目标交互特征;检测至少两个目标交互特征与目标封面的相关程度;当相关程度大于预设阈值时,判定目标封面为目标视频的封面。从而可以脱离对随意性较大的用户反馈信息的依赖,通过目标视频本身的至少两个目标视频特征,判定目标封面是否为目标视频的封面,大大提高对目标视频与目标视频封面是否对应进行判断的准确率。

    视频识别模型的训练方法、视频识别方法及相关设备

    公开(公告)号:CN114419488A

    公开(公告)日:2022-04-29

    申请号:CN202111608930.1

    申请日:2021-12-27

    Inventor: 马灏 陈益如

    Abstract: 本公开关于一种视频识别模型的训练方法、视频识别方法及相关设备,该方法包括:获取视频样本集合,视频样本集合中的视频样本包括展示数据、音频数据、展示数据与音频数据的相关性标注数据;提取展示数据中的展示文本数据;对音频数据进行语音识别,获取播放文本数据;将展示文本数据和播放文本数据输入视频识别模型的第一网络结构,获取文本关系向量;将文本关系向量输入视频识别模型的第二网络结构,获取相关性预测数据;根据由相关性预测数据和相关性标注数据确定的目标损失,对第二网络结构对应的网络参数进行训练,获取符合预设条件的视频识别模型,获取到的已训练视频识别模型可以对视频进行快速准确的识别。

    一种视频识别方法、装置及计算机可读存储介质

    公开(公告)号:CN112580599A

    公开(公告)日:2021-03-30

    申请号:CN202011607400.0

    申请日:2020-12-30

    Abstract: 本公开关于一种视频识别方法、装置及计算机可读存储介质。本公开实施例获取待识别视频中的参考图像,以及与参考图像对应的文本信息;对参考图像进行目标检测,获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量,并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;以及对文本信息进行特征提取,得到文本信息对应的文本特征,并将融合图像特征与文本特征进行融合处理,得到用于识别待识别视频的视频内容的语义信息。由于本公开实施例获取图像特征向量之后,可以直接与预设的相对位置信息进行融合处理得到融合图像特征,提高了对视频内容进行识别的效率以及准确性。

Patent Agency Ranking