多模图像配准方法
    11.
    发明公开

    公开(公告)号:CN104992432A

    公开(公告)日:2015-10-21

    申请号:CN201510345316.9

    申请日:2015-06-19

    Abstract: 本发明提供一种多模图像配准方法,包括:将参考图像的特征直线与待配准图像的特征直线相匹配,获得所述参考图像的第一特征直线集以及所述待配准图像的第二特征直线集;将所述第一特征直线集中特征直线的交点作为第一基准特征点,将所述第二特征直线集中特征直线的交点作为第二基准特征点,由所述第一基准特征点得到第一特征点集,由所述第二基准特征点得到第二特征点集;根据所述第一特征点集和所述第二特征点集对所述参考图像和所述待配准图像进行匹配。本发明提供的多模图像配准方法,将特征直线与特征点相结合,获取到多模图像的稳定准确的特征点,基于该稳定准确的特征点进行图像配准,提高了多模图像的配准精确度。

    一种基于自适应特征融合的图像场景文本检测方法

    公开(公告)号:CN118887648A

    公开(公告)日:2024-11-01

    申请号:CN202410899366.0

    申请日:2024-07-05

    Abstract: 本发明提供了一种基于自适应特征融合的图像场景文本检测方法。该方法包括:使用ResNet主干网络对待处理的场景文本图像进行多尺度特征(x2,x3,x4,x5)提取,使用特征金字塔网络对多尺度特征(x2,x3,x4,x5)进行初步的多尺度特征融合,输出经过融合的多尺度特征(o2,o3,o4,o5),并输入到特征混迭模块得到多尺度特征(p2,p3,p4,p5);将多尺度特征(p2,p3,p4,p5)进行拼接得到多尺度特征矩阵P;使用通道注意力模块对多尺度特征矩阵P进行自适应特征融合,得到经过融合的多尺度特征Q;对Q进行可微二值化后处理得到概率图和阈值图,根据概率图和阈值图得到待处理的场景文本图像中场景文本检测结果。本发明对多尺度特征从通道维度到空间维度进行特征混迭,有效提高了不同尺度特征的表达能力,提高了文本检测算法的性能。

    一种基于关键点回归的人脸检测方法

    公开(公告)号:CN115223220B

    公开(公告)日:2023-06-09

    申请号:CN202210719383.2

    申请日:2022-06-23

    Abstract: 本发明提供了一种基于关键点回归的人脸检测方法。该方法包括:通过多任务头网络提取待识别图像的特征图,输出训练图像的预测框;利用关键点回归对预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框;利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络;将待识别图像输入到训练好的多任务特征提取网络,多任务特征提取网络输出待识别图像的人脸识别结果。本发明设计了多任务最优传输匹配算法,改进了训练样本匹配的评价指标,匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。

    基于声纹特征与生成对抗学习的多说话人语音分离方法

    公开(公告)号:CN111128197B

    公开(公告)日:2022-05-13

    申请号:CN201911356481.9

    申请日:2019-12-25

    Inventor: 明悦 傅豪

    Abstract: 本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法,对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料,对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征,完成对判别器的训练;判别器参数固化后,再完成生成器的训练;参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本,通过生成对抗网络不断逼近输出分布,减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,实现目标说话人音频的跟踪识别。

    基于三维视频的多任务协同分析方法

    公开(公告)号:CN108846343B

    公开(公告)日:2022-05-13

    申请号:CN201810570322.8

    申请日:2018-06-05

    Inventor: 明悦

    Abstract: 本发明提供了一种基于三维视频的多任务协同分析方法。该方法包括:采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述;采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型;根据所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型,输出并展示所述三维视频数据的多视觉任务协同学习结果。本发明的方法能够有效地反映三维视频中纹理、形状、运动信息的不变性,提出一种与视觉任务相关的高数据利用率、低资源消耗率的动态协同特征学习机制,实现基于通用特征的多视觉任务协同特征学习。

    图像识别方法和装置
    16.
    发明授权

    公开(公告)号:CN110399897B

    公开(公告)日:2021-11-02

    申请号:CN201910286523.X

    申请日:2019-04-10

    Abstract: 本发明实施例提供一种图像识别方法和装置。方法包括:从L张图像中选取第一图像组以及第二图像组,根据第一图像组和第二图像组中每张图像的图像特征,计算第一图像组中每一图像与第二图像组中每一图像的图像关联性,初始化目标函数的参数,对目标函数的参数进行迭代更新,获得迭代更新后的目标函数,确定L张图像的聚类中心,迭代更新的次数为至少一次;根据更新后的目标函数中的哈希函数对待识别图像的图像特征进行二值编码,获得二值编码数据;根据待识别图像的二值编码数据与L张图像的聚类中心中每张图像的二值编码数据,识别待识别图像。从而提高图像识别的准确性。

    一种基于特征融合的三维点云的分类和分割方法

    公开(公告)号:CN113393474A

    公开(公告)日:2021-09-14

    申请号:CN202110648726.6

    申请日:2021-06-10

    Abstract: 本发明提供了一种基于特征融合的三维点云的分类和分割方法。该方法包括:将三维点云划分为多个局部区域,对每个局部区域内通过KNN算法建立多尺度区域,通过图注意力卷积层提取尺度区域的细粒度尺度特征,为局部区域的每个尺度特征分配注意力权重,对局部区域的各个尺度特征按照注意力权重进行加权融合,得到包含细粒度几何信息的点云的局部区域特征;通过双向长短期记忆网络获取不同局部区域特征之间的上下文信息,将各个局部区域特征进行融合,得到点云的全局语义特征,对三维点云进行分类与分割。本发明挖掘不同局部区域的细粒度多尺度信息,结合不同尺度区域之间的相关性捕获局部区域信息,提升了三维点云场景理解中分类与分割任务的精确度。

    基于时序预测的目标跟踪方法和装置

    公开(公告)号:CN110827320A

    公开(公告)日:2020-02-21

    申请号:CN201910876398.8

    申请日:2019-09-17

    Abstract: 本发明提供了一种基于时序预测的目标跟踪方法和装置,该方法包括:采集得到包含目标的视频帧图片;采用多个并行的LSTM模块组成时序预测网络,在时序预测网络中输入t-1时刻的目标的运动状态变化量得到t时刻的目标的运动状态变化量,再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的时序预测结果;空间预测模型基于t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征,将图片特征进行相关滤波定位处理,得到t时刻的目标的运动状态量的最终预测结果。本发明通过将目标的时序模型和目标的空间模型相结合,将时序模型的输出转化为空间模型的输入,使得空间模型的待检测区域更加准确,能够获得更加高效、准确的目标定位结果。

    音乐检索方法及装置
    19.
    发明授权

    公开(公告)号:CN106528706B

    公开(公告)日:2020-02-07

    申请号:CN201610950058.1

    申请日:2016-10-26

    Abstract: 本发明实施例提供一种音乐检索方法及装置,该方法包括:获取用户输入的初始音乐片段;对所述初始音乐片段进行预处理,得到待匹配音乐片段;获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐。用于提高音乐检索的精确性。

    多任务协同识别方法及系统

    公开(公告)号:CN109947954A

    公开(公告)日:2019-06-28

    申请号:CN201910312615.0

    申请日:2019-04-18

    Inventor: 明悦

    Abstract: 本发明提供了一种多任务协同识别方法和系统,属于人工智能的任务识别技术领域,该系统包括通用特征提取模块、协同特征学习模块、适境反馈评估识别模块;基于时间同步匹配机制,提取多源异构数据的通用特征,实现所述多源异构数据的通用特征描述;结合基于外部依赖的协同注意机制,将所述通用特征作为先验知识进行训练,生成通用特征间的关联记忆关系;提取多源异构数据的环境感知参数,结合所述关联记忆关系,实现多任务识别。本发明结合环境感知的适境计算理论,通过深度增强反馈判断出待识别任务的权重,自适应地根据环境变化调整待识别任务的优先级,实现多个视听觉感知识别结果同时输出的效果。

Patent Agency Ranking