一种利用位置信息优化的视觉问答方法

    公开(公告)号:CN114818739B

    公开(公告)日:2025-05-09

    申请号:CN202210327078.9

    申请日:2022-03-30

    Inventor: 毛爱华 林肯

    Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤:收集训练数据,包括图片和与给定图片相关的问题;对输入的问题做前处理;对输入的图片做前处理;进行多头位置自注意力操作来得到问题中单词的融合特征向量:进行位置自注意力操作,同时利用位置联合注意力机制对视觉模态和语言模态进行融合,得到图片中的物体的融合特征向量;将物体的融合特征向量和单词的融合特征向量压缩后进行融合;构成视觉问答模型,预测问题答案,计算和真值之间差别,并通过反向传播来训练视觉问答模型,向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题,对于模型理解句子语义有帮助。

    一种基于双特征融合和邻域感知上采样的点云补全方法

    公开(公告)号:CN118279367A

    公开(公告)日:2024-07-02

    申请号:CN202410385384.7

    申请日:2024-04-01

    Inventor: 唐宇轩 毛爱华

    Abstract: 本发明公开了一种基于双特征融合和邻域感知上采样的点云补全方法,该方法首先搭建并训练包括编码器模块、双特征融合模块、解码器模块和多级上采样模块的点云补全网络;在补全过程中,残缺点云和其对应的单视角图片首先通过编码器模块变成对应的特征向量,经过双特征融合模块后得到表征能力更强的特征向量,进而通过解码得到稀疏的粗糙完整点云,该点云只有全局形状,缺乏精细的几何细节;接着通过多级上采样模块对稀疏的粗糙完整点云进行去噪和上采样得到密集完整的低噪点云。与现有的技术相比,本发明的点云补全方法能在恢复点云的全局形状的同时,保留残缺点云具备的细节几何结构,且补全的缺失部分有较好的均匀度。

    一种多任务融合的人物细粒度分割系统和方法

    公开(公告)号:CN113076902B

    公开(公告)日:2023-07-18

    申请号:CN202110398552.2

    申请日:2021-04-12

    Abstract: 本发明公开了一种多任务融合的人物细粒度分割系统和方法,该系统包括:主干网络、边缘检测模块、前景预测模块和细粒度分割模块;主干网络,用于提取输入图像的特征图,并降低特征图的尺寸;边缘检测模块,用于将特征图进行边缘特征提取,得到对应的边缘特征图;将所有边缘特征图连接并经边缘预测模块得到边缘预测结果;前景预测模块,用于从主干网络的特征图中提取到前景对应的信息,将前景对应的信息作背景内容过滤;细粒度分割模块输出输入图像的细粒度分割预测结果。本发明能够一次输出三种预测结果,分别属于低层次理解的边缘检测和前景预测,以及高层次的细粒度分割预测,使得在现实场景的理解中具有更大层次性。

    一种基于端到端的音色及情感迁移的跨语言语音合成方法

    公开(公告)号:CN115359774A

    公开(公告)日:2022-11-18

    申请号:CN202210782542.3

    申请日:2022-07-05

    Abstract: 本发明公开了一种基于端到端的音色及情感迁移的跨语言语音合成方法,步骤如下:S1、采集并处理中英文的语音训练数据,提取出所需的语音特征;S2、训练中文和英文的语音合成的学习网络架构,包括说话人编码器、合成器和声码器三部分;S3、利用训练完成的学习网络架构,对说话人输入的实时语音进行跨语言的语音合成,合成语音能够有效保留说话人的音色和情感。本方法提供了跨语言的语音合成方法,在给定说话人少量语音的条件下,能够合成跨语言的语音,且可以在合成语音中保留说话人的音色和情感。

    一种基于上下文感知特征聚集的3D目标检测方法

    公开(公告)号:CN114882495A

    公开(公告)日:2022-08-09

    申请号:CN202210340978.7

    申请日:2022-04-02

    Inventor: 毛爱华 陈婉昕

    Abstract: 本发明公开了一种基于上下文感知特征聚集的3D目标检测方法,步骤如下:S1、提取输入点云的局部特征点集并预测坐标和特征偏移量;S2、根据投票操作形成的特征聚类生成优化后的搜索半径;S3、根据步骤S2中的优化后的搜索半径生成语义特征;S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果。与现有技术相比,本发明的目标检测方法能在保持网络轻量级的同时,提升了目标检测任务的精度,达到理想的目标检测效果。

    一种基于人体姿态方位估算的摔跤检测方法

    公开(公告)号:CN111914619A

    公开(公告)日:2020-11-10

    申请号:CN202010532727.X

    申请日:2020-06-12

    Abstract: 本发明公开了一种基于人体姿态方位估算的摔跤检测方法,该方法包括如下步骤:手机端接收传感器集成设备测量的人体运动数据并进行输入校正;通过卡尔曼滤波融合人体数据和消除干扰项;根据人体运动数据进行人体姿势角度估算;根据人体运动数据和人体姿势角度进行摔跤检测判断。本发明将检测方法整合在手机端上,用户仅需佩戴一块轻便的传感器集成设备,手机端下载配套的客户端,就可以实现鲁棒的摔跤检测。当用户出现摔跤的情况时,手机端能及时发出警报。用户可以将传感器集成设备佩戴在躯干或腿部等任意部位,当传感器集成设备被佩戴在腰部和腿部时,摔跤检测的准确率达到100%。

    一种移植二维图像中角色的姿态的方法

    公开(公告)号:CN106570914B

    公开(公告)日:2020-01-14

    申请号:CN201611025235.1

    申请日:2016-11-15

    Abstract: 本发明为一种移植二维图像角色姿态的方法,能让原始角色自动模仿目标角色的姿态。步骤如下:首先提取图像中的角色转化为图形,并将其分解为高频的边缘细节与低频的躯体。其次提取低频躯体的骨骼,将不同角色的骨骼互相匹配,并参照目标角色的骨骼形变原始角色躯体。接着用约束保持原始角色的躯体在形变前后的几何特征。然后把原始角色的高频边缘细节参照原始角色躯体进行等角形变并组合,得到移植了目标角色的姿态的原始角色。本发明解决了二维角色间的姿态移植问题,可以帮助艺术家让自己创作的角色模仿已有素材角色的姿态,简化了创作过程,减少重复劳动。并且本发明在移植姿态同时,很好保持了原角色的体型与细节等,结果精确合理。

    基于贝叶斯网络的室内家居风格与颜色搭配设计的方法

    公开(公告)号:CN106202352A

    公开(公告)日:2016-12-07

    申请号:CN201610525746.3

    申请日:2016-07-05

    Abstract: 本发明公开了一种基于贝叶斯网络的室内家居风格与颜色搭配设计的方法,包括步骤:1)室内风格和颜色设计方案的收集;2)对下载的设计方案进行标注;3)对每类物体的颜色进行聚类;4)训练贝叶斯网络;5)为3D室内场景进行颜色推荐;6)颜色多样化调整;7)设计得到的颜色迁移到纹理上,并将纹理贴在3D场景模型上。本发明利用贝叶斯网络从优秀的室内设计方案(图片)中编码装饰风格和家具颜色搭配之间的关系,可以用于室内场景中的家具颜色搭配的设计。根据用户对装饰风格的要求,本发明的系统可以推荐出符合该风格的室内场景的家具颜色搭配,为我国城市的家装市场、3D游戏动画和虚拟现实场景提供方便快捷的效果展示,具有实际的推广价值。

    一种端到端的音色及情感迁移的中文语音克隆方法

    公开(公告)号:CN115359775B

    公开(公告)日:2025-05-16

    申请号:CN202210846358.0

    申请日:2022-07-05

    Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法,步骤如下:采集用户录制的中文语音作为训练数据,提取出所需的语音特征;训练语音克隆合成模型,包括音色情感编码器、合成器和声码器三部分;利用训练完成的语音克隆合成模型,根据用户输入的语音或文字内容,生成语音克隆合成模型已有的指定说话人的语音;或根据用户输入的短时语音,快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆,通过多说话人模型,以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量,结合使用较多语料训练的生成模型进行语音克隆,实现了能够体现特定说话人音色和情感的语音克隆。

    一种基于上下文感知特征聚集的3D目标检测方法

    公开(公告)号:CN114882495B

    公开(公告)日:2024-04-12

    申请号:CN202210340978.7

    申请日:2022-04-02

    Inventor: 毛爱华 陈婉昕

    Abstract: 本发明公开了一种基于上下文感知特征聚集的3D目标检测方法,步骤如下:S1、提取输入点云的局部特征点集并预测坐标和特征偏移量;S2、根据投票操作形成的特征聚类生成优化后的搜索半径;S3、根据步骤S2中的优化后的搜索半径生成语义特征;S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果。与现有技术相比,本发明的目标检测方法能在保持网络轻量级的同时,提升了目标检测任务的精度,达到理想的目标检测效果。

Patent Agency Ranking