一种基于池化Transformer的多任务全心脏CT分割方法

    公开(公告)号:CN117011306B

    公开(公告)日:2025-05-16

    申请号:CN202310609850.0

    申请日:2023-05-26

    Abstract: 本发明提出一种基于池化Transformer的多任务全心脏CT分割方法,包括,获取全心脏CT图像训练数据集;构建全心脏CT图像分割模型,其中全心脏CT图像分割模型包括3D transformer编码器和3D卷积神经网络解码器,采用3D池化注意力机制计算图像块与图像块之间的关系;将全心脏CT图像训练数据集输入全心脏CT图像分割模型进行训练,得到完成的全心脏CT图像分割模型;其中分割损失函数由Dice损失函数和加权交叉熵损失函数组成;将测试数据集中的图像输入训练完成的全心脏CT图像分割模型,获取图像分割结果。通过本发明提出的方法,可以准确高效的进行心脏分割。

    一种基于图关系交互学习的人体动作预测方法及装置

    公开(公告)号:CN116935492B

    公开(公告)日:2025-03-25

    申请号:CN202310987468.3

    申请日:2023-08-07

    Abstract: 本发明提出一种基于图关系交互学习的人体动作预测方法,包括,获取训练数据集,所述训练数据集包括人体动作序列;构建图关系交互学习网络,其中,图关系交互学习网络采用双支路对称残差图卷积网络GCN结构,双支路GCN之间的连接类型包括数据流和参数流;通过训练数据集对图关系交互学习模型进行训练,其中,训练采用平均每关节位置误差损失和平均每关节速度误差损失加权结合的损失函数;获取待预测数据,将待预测数据输入训练完成的图关系交互学习网络,获取人体动作预测结果。本发明实现了更精确的人体动作预测。

    基于伪图像序列演化的三维姿态预测方法

    公开(公告)号:CN110826502A

    公开(公告)日:2020-02-21

    申请号:CN201911088199.7

    申请日:2019-11-08

    Abstract: 本发明公开了基于伪图像序列演化的三维姿态预测方法,具体步骤包括如下:步骤一:输入关节点坐标序列;步骤二:将关节点坐标序列变换为图像序列,并对人体进行划分,同时将所述图像序列转换得到伪图像序列;步骤三:构建序列到序列模型,将历史姿态的伪图像序列预测未来的姿态序列;步骤四:输出未来的姿态序列的关节点坐标序列。本发明提供了基于伪图像序列演化的三维姿态预测方法,(1)新的骨架表示,将姿态预测问题建模为视频预测问题;(2)一个新的结构PISEP2,该结构以非递归的方式预测所有未来的帧,能够有效地避免误差累积和提高计算效率。

    一种基于Mamba的实时2D关键点检测方法及装置

    公开(公告)号:CN119942638A

    公开(公告)日:2025-05-06

    申请号:CN202411949509.0

    申请日:2024-12-27

    Abstract: 本申请提出一种基于Mamba的实时2D关键点检测方法及装置,涉及二维关键点检测领域,其中,方法包括:通过基于卷积神经网络的Stem网络接收输入图像,并提取初始姿态特征,获得初步特征;利用基于逐块递归特征提取模型的编码器处理所述初始特征,输出多级姿态特征,其中,所述编码器包括多个阶段,每个阶段都由上下文建模模块、二维选择性扫描模块和归一化层组成;使用解码器将所述编码器输出的多级姿态特征上采样为关键点热图,每个关键点的热图表示目标实例的关键点位置。本申请通过基于Mamba的轻量化网络结构设计,解决了传统方法中难以兼顾关键点检测实时性与高精度的技术问题,显著提升了关键点检测的实时性能和检测精度。

    一种3D视觉定位方法
    10.
    发明公开

    公开(公告)号:CN118447084A

    公开(公告)日:2024-08-06

    申请号:CN202410271051.1

    申请日:2024-03-11

    Inventor: 尹建芹 耿亮

    Abstract: 本发明公开了一种3D视觉定位方法,属于3D视觉技术领域,其包括以下步骤:S1、三维场景图构建:从视觉场景中提取对象O的输入点云,构建一个从语义到实例的分层场景图;S2、具身视角观测体系:在3D空间中推理与文本指令相符的具身视角;S3、具身视角推理图构建:根据输入语言U和3D场景图利用LLMs进行联合推理,获得查询物体的类别、属性以及具身视角等信息;S4、具身视角推理:根据视角下的情景,在Graph上进行深度优先搜索,筛选目标对象。本发明通过引入ViewInfer3D,这是一种新颖的3D视觉定位方法,利用大型语言模型(LLMs)作为协调定位过程的中心代理。我们提出的3D场景图与LLM相结合的方式推理方式,减少了LLMs处理的token数量和推理难度并有利于发现隐含视角。

Patent Agency Ranking