-
公开(公告)号:CN118365659B
公开(公告)日:2024-11-01
申请号:CN202410796369.1
申请日:2024-06-20
Applicant: 厦门大学
IPC: G06T7/10 , G06N3/0499 , G06N3/0464 , G06N3/08
Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。
-
公开(公告)号:CN119625011A
公开(公告)日:2025-03-14
申请号:CN202411674588.9
申请日:2024-11-21
Applicant: 厦门大学
IPC: G06T7/136 , G06V10/80 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/0895 , G06N3/0464
Abstract: 本发明公开了一种图像增强提示解码网络的三维指向性目标分割方法,包括以下步骤:S1、特征提取;S2、多视角语义嵌入策略和查询生成;S3、提示感知解码器;S4、训练损失:训练损失包括基础损失、概率损失和对比学习损失;本发明以自上而下的方法利用多视角图像和任务驱动的信息来释放模型的推理能力;MSE使用CLIP提取二维图像特征,然后与三维点云特征融合,以显著增强视觉特征;PAD使用任务驱动的提示信号来指导解码过程,通过任务驱动提示模块,生成了强调每个查询与文本的相关性的提示,有效地将任务特定的信息注入到模型中,并显著降低了学习的复杂性。
-
公开(公告)号:CN113362857A
公开(公告)日:2021-09-07
申请号:CN202110663975.2
申请日:2021-06-15
Applicant: 厦门大学
Abstract: 一种基于CapCNN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,所述方法包括:步骤一、搜集一定数量的自闭症儿童的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的语谱特征作为输入数据;步骤三、构建基于CapCNN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。本发明实现了更高的准确率,相比其他语音情感识别的方法,在语音的短时识别上表现的更好,且在多个数据集中都表现出更好的鲁棒性,能够较好地把握语谱图的位置信息和整体特征,是一种高效稳定语音情感识别方法。
-
公开(公告)号:CN119649030A
公开(公告)日:2025-03-18
申请号:CN202411786945.0
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06V10/26 , G06V20/64 , G06V20/70 , G06N3/0895 , G06V10/40 , G06V10/74 , G06F18/24 , G06F18/22 , G06N3/096 , G06N3/045
Abstract: 本发明公开了一种弱监督设置下的三维指向性目标分割方法,涉及三维指向性目标分割技术领域。所述方法包括:实例提取过程:获取点云场景以及文本描述,提取场景中的3D实例,表示为实例掩码以及类别分数预测;多专家挖掘过程:通过多个专家模型从完整上下文、属性和类别三个维度的语义线索中提取信息,并分别计算目标的语义分布;多专家聚合过程:根据当前样本的特点,自动为来自更准确专家模型的输入分布赋予更大的权重,突出目标实例的同时排除干扰信息。本发明提供的一种弱监督设置下的三维指向性目标分割方法,只提供三维点云数据以及对应的指向性描述,而不提供掩码注释,从而无需耗费时间精力进行掩码注释。
-
公开(公告)号:CN113257279B
公开(公告)日:2025-01-10
申请号:CN202110316240.2
申请日:2021-03-24
Applicant: 厦门大学
IPC: G10L25/63 , G10L25/30 , G10L25/03 , G10L25/24 , G10L25/18 , G06F18/2415 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/084 , G06N3/048
Abstract: 一种基于GTCN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,方法包括:步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的组合特征作为输入数据;步骤三、构建基于GTCN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。相比其他语音情感识别方法,本发明实现了更高的准确率,在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性,并且能够以更高的效率和更低的内存进行训练,是一种高效稳定的语音情感识别方法。
-
公开(公告)号:CN118365659A
公开(公告)日:2024-07-19
申请号:CN202410796369.1
申请日:2024-06-20
Applicant: 厦门大学
IPC: G06T7/10 , G06N3/0499 , G06N3/0464 , G06N3/08
Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。
-
公开(公告)号:CN113257279A
公开(公告)日:2021-08-13
申请号:CN202110316240.2
申请日:2021-03-24
Applicant: 厦门大学
Abstract: 一种基于GTCN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,方法包括:步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的组合特征作为输入数据;步骤三、构建基于GTCN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。相比其他语音情感识别方法,本发明实现了更高的准确率,在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性,并且能够以更高的效率和更低的内存进行训练,是一种高效稳定的语音情感识别方法。
-
-
-
-
-
-