Patent search ap:("北京中科闻歌科技股份有限公司") AND inv:"陈博" Page 2

11.

发明授权
一种图像去噪处理系统有权

公开(公告)号：CN116797493B

公开(公告)日：2024-01-26

申请号：CN202310964411.1

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王磊 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 罗引

IPC: G06T5/70 , G06T5/50 , G06V10/30 , G06V10/80

Abstract: 本发明涉及图像处理领域，尤其涉及一种图像去噪处理系统，包括：含噪人脸图像A、中间素描图像特征集合B=（B1，B2，……，Bn，……，BM）和文本特征C，所述系统实现以下步骤：对A和B1进行下采样得到第一个中间图像特征D1，对Di和Bi进行下采样得到Di+1，对DM和文本特征C进行注意力特征提取得到注意力图像特征E，对E进行上采样得到第一个中间噪声图像特征F1，对Fj和DM‑j进行上采样得到Fj+1，对FM‑1和D1进行上采样得到预测噪声图像G，根据A和G得到去噪人脸图像，将图像模态下的B、文本模态下的C与A进行信息融合，根据双模态的特征信息提高了对A的表征能力，提高了去噪结果的准确性。

12.

发明授权
基于语音驱动和人脸自驱动的虚拟人视频合成方法有权

公开(公告)号：CN116528019B

公开(公告)日：2024-01-26

申请号：CN202310724745.1

申请日：2023-06-19

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郑洋 , 陈博 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N21/81 , G06T13/20 , G06T13/40

Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，包括：对原始虚拟人视频素材进行预处理，得到首帧人脸图像为基准人脸图像的第一视频素材；利用设定口型驱动模型驱动所述第一视频素材，得到第二视频素材；将第一视频素材中的首帧人脸图像作为被驱动人脸图像，将第二视频素材中的人脸图像作为口型驱动图像序列，通过设定人脸驱动算法得到第三视频素材；利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像，得到第四视频素材；将第四视频素材和目标音频文件进行合成，得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节，发音和唇形吻合度高，可以对新的人物形象不加训练而快速迁移。

13.

发明公开
基于多模态大模型的图表问答方法、系统、介质和设备有权

公开(公告)号：CN117390165A

公开(公告)日：2024-01-12

申请号：CN202311409539.8

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 魏靖烜 , 陈博 , 郝艳妮 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/34

Abstract: 本申请涉及图表问答技术领域，特别是涉及一种基于多模态大模型的图表问答方法、系统、介质和设备。该方法包括：提取待处理图表中的目标文本信息，得到图表文本特征向量；提取上述待处理图表中目标图像信息，得到图表图像特征向量；将综合文本特征向量和图表图像特征向量进行对齐；根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答。本申请对于待处理图表的信息提取分为两部分进行，提供的待处理图表的信息更具针对性，更精确，则最终得到的图标问答对应的回答的准确性也越高。

14.

发明授权
一种视觉驱动的虚拟角色处理系统有权

公开(公告)号：CN116452787B

公开(公告)日：2023-10-10

申请号：CN202310696721.X

申请日：2023-06-13

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郑洋 , 陈博 , 徐楠 , 方省 , 曹家 , 王磊

IPC: G06T19/20 , G06T7/55 , G06T7/70 , G06V40/16

Abstract: 本发明提供了一种视觉驱动的虚拟角色处理系统，该系统包括非虚拟角色图像组列表A={A1，A2，……，Ai，……，Am}、虚拟角色图像组B、处理器和存储有计算机程序的存储器，i=1，2，……，m，m为非虚拟角色图像组数量，Ai为第i帧非虚拟角色图像组，还包括根据A获得的非虚拟姿态图像组C={C1，C2，……，Ci，……，Cm}和非虚拟面部图像组D={D1，D2，……，Di，……，Dm}，以及根据虚拟角色图像组B获得的虚拟角色的姿态图像Bb和虚拟角色的表情图像Bm，当所述计算机程序被处理器执行时，将Ci与Bb对齐，将Di与Bm对齐，提高了虚拟角色与非虚拟角色的吻合度。

15.

发明公开
一种图像生成系统审中-实审

公开(公告)号：CN116823597A

公开(公告)日：2023-09-29

申请号：CN202310964424.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王磊 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 罗引

IPC: G06T3/00 , G06N3/0475 , G06N3/094

Abstract: 本发明涉及图像处理领域，尤其涉及一种图像生成系统，包括：目标图像A和A对应的目标语义特征向量B，所述系统实现以下步骤：将A作为待加噪图像A0，初始化加噪次数t=0，通过噪声预测模型对A0和B进行噪声预测，得到噪声预测结果Ct，对A0和Ct进行加权相加，得到加噪图像Dt，以Dt作为A0，迭代得到目标加噪图像E，将E和B输入图像生成模型中进行图像生成，得到生成图像Es，以Es作为E，迭代得到目标生成图像，通过编码噪声的形式提取A中的随机信息、面部细节和语义信息等信息，并在A上多次叠加编码得到的噪声来得到E，进一步对E和B进行多次图像生成处理得到目标生成图像，提高了目标生成图像的准确性。

16.

发明公开
实时问答虚拟人视频生成方法、电子设备及存储介质审中-实审

公开(公告)号：CN116996630A

公开(公告)日：2023-11-03

申请号：CN202310964008.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332

Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质，方法包括：基于待播报信息获取对应的场景视频；对音频文件进行特征提取，得到对应的音频特征；基于场景视频和音频特征，生成口型与音频特征相匹配的场景视频，作为初始人脸驱动视频；基于场景视频中的目标图像以及初始驱动视频，获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征；基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征，得到目标人脸驱动视频；利用目标人脸驱动视频中的人脸替换场景视频中的人脸，得到虚拟人视频；将虚拟人视频和音频文件进行合成，得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。

17.

发明公开
逆转图像重建方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN116862803A

公开(公告)日：2023-10-10

申请号：CN202310864682.X

申请日：2023-07-13

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 王磊

IPC: G06T5/00 , G06V10/56 , G06V10/82 , G06N3/0464 , G06V10/44 , G06N3/048

Abstract: 本公开涉及一种逆转图像重建方法、装置、设备及可读存储介质。本公开通过获取待逆转图像，所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像，对所述待逆转图像进行逆转处理，得到逆转图像。由于对所述待逆转图像进行逆转处理，得到逆转图像，进而可以对逆转图像的隐空间特征进行约束，使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布，在图像编辑中减少图像伪影的出现，从而提高真实图像的图像编辑的效果。并且，本公开实施例可以适用于高质量图像以及低质量图像，提高了逆转方法的泛化性能，提升了低质量图像逆转的重建效果，保证了GAN逆转方法对图像质量的稳定性。

18.

发明授权
基于多模态大模型的图表问答方法、系统、介质和设备有权

公开(公告)号：CN117390165B

公开(公告)日：2025-03-25

申请号：CN202311409539.8

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 魏靖烜 , 陈博 , 郝艳妮 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06F16/3329 , G06F16/334 , G06F16/338 , G06F16/34

Abstract: 本申请涉及图表问答技术领域，特别是涉及一种基于多模态大模型的图表问答方法、系统、介质和设备。该方法包括：提取待处理图表中的目标文本信息，得到图表文本特征向量；提取上述待处理图表中目标图像信息，得到图表图像特征向量；将综合文本特征向量和图表图像特征向量进行对齐；根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答。本申请对于待处理图表的信息提取分为两部分进行，提供的待处理图表的信息更具针对性，更精确，则最终得到的图标问答对应的回答的准确性也越高。

19.

发明授权
含不确定性引导的测试阶段训练人脸伪造检测方法及系统有权

公开(公告)号：CN117275068B

公开(公告)日：2024-05-17

申请号：CN202311224982.8

申请日：2023-09-21

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 王磊

IPC: G06V40/16 , G06V40/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种含不确定性引导的测试阶段训练人脸伪造检测方法及系统，属于深度学习以及计算机视觉技术领域，方法包括：获取待判别的图像作为初始输入图像；获取所述初始输入图像的高频信息图像；提取所述高频信息图像中不同尺度的RGB特征和频域注意力特征，将所述RGB特征和所述频域注意力特征进行融合；将所述融合后RGB特征和所述频域特征进行交叉注意力计算，得到融合特征；基于所述融合特征，并根据不同的输入图像和任务需求，自适应选择融合方式，得到判别特征，并基于所述判别特征进行分类任务。本发明充分利用频域和RGB域中有效的信息挖掘伪造痕迹，利用不确定性引导的测试阶段训练策略，对网络中的不确定性进行优化，提高了泛化性能。

20.

发明授权
一种图像生成系统有权

公开(公告)号：CN116823597B

公开(公告)日：2024-05-07

申请号：CN202310964424.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王磊 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 罗引

IPC: G06T3/04 , G06N3/0475 , G06N3/094

Abstract: 本发明涉及图像处理领域，尤其涉及一种图像生成系统，包括：目标图像A和A对应的目标语义特征向量B，所述系统实现以下步骤：将A作为待加噪图像A0，初始化加噪次数t=0，通过噪声预测模型对A0和B进行噪声预测，得到噪声预测结果Ct，对A0和Ct进行加权相加，得到加噪图像Dt，以Dt作为A0，迭代得到目标加噪图像E，将E和B输入图像生成模型中进行图像生成，得到生成图像Es，以Es作为E，迭代得到目标生成图像，通过编码噪声的形式提取A中的随机信息、面部细节和语义信息等信息，并在A上多次叠加编码得到的噪声来得到E，进一步对E和B进行多次图像生成处理得到目标生成图像，提高了目标生成图像的准确性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification