Patent search ap:("北京信息科技大学") AND inv:"王选" Page 1

1.

发明公开
一种二维图像牙菌斑自动分割方法及系统审中-实审

公开(公告)号：CN117197448A

公开(公告)日：2023-12-08

申请号：CN202310583270.9

申请日：2023-05-23

Applicant: 北京信息科技大学 , 北京航空航天大学 , 北京大学口腔医学院

Inventor： 宋文凤 , 王选 , 李帅 , 郝爱民 , 夏斌

IPC: G06V10/26 , G06V10/44 , G06V10/762 , G06V10/82 , G06T7/11 , G06N3/0464 , G06N3/0455 , G06N3/08

Abstract: 本发明公开了一种二维图像牙菌斑自动分割方法及系统，涉及计算机视觉和图像处理技术领域。通过将输入图像的上下文信息进行编码并且送入由自注意力机制以及Kmeans聚类所组成的编码器模块。将编码后的图像上下文信息输入编码器模块之后会获得自注意力图以及聚类特征图，并将两者结合获得编码后的数据，编码器编码后的数据将会被送至由多层感知机构所组成的解码器中，解码器将编码后的数据通过卷积层以及全连接层之后，输出最终的分割掩码。将图像输入到网络中进行训练，直至训练收敛，最终得到完整的模型。本发明能够自动的划分出牙齿以及牙菌斑的区域，识别精度高，并且解决了模型收敛性差、边缘细节分割效果差的问题。

2.

发明公开
一种语音驱动的多表情3D面部动画生成方法及系统审中-公开

公开(公告)号：CN119784902A

公开(公告)日：2025-04-08

申请号：CN202411081771.8

申请日：2024-08-08

Applicant: 北京信息科技大学

Inventor： 宋文凤 , 王选 , 侯霞

IPC: G06T13/20 , G06T13/40 , G06N3/0455 , G06N3/0464 , G10L25/30 , G10L25/63

Abstract: 本发明公开了一种语音驱动的多表情3D面部动画生成方法及系统，涉及计算机动画及虚拟现实领域。获取输入的音频，将音频首先使用微调后的编码器进行编码，获得输入音频的特征；接下来使用全连接神经网络进行特征降维，以得到音频特征的潜在代码；将潜在音频代码和情绪代码以及扩散步数输进面部去噪模型中，生成潜在面部运动代码；将面部运动代码使用码本进行离散量化处理，获得码本中接近的潜在面部运动代码；将离散化后的潜在面部运动代码进行解码得到面部运动，将此面部运动与静止的面部模板相加，获得最终的完整面部运动序列。本发明生成高质量、与输入音频和情绪标签紧密同步的3D面部动画，为创建情感丰富的虚拟角色提供了新的有效手段。

Patent Agency Ranking