-
公开(公告)号:CN113035311B
公开(公告)日:2023-05-23
申请号:CN202110340777.2
申请日:2021-03-30
Applicant: 广东工业大学
IPC: G16H15/00 , G16H30/00 , G06F16/35 , G06F40/30 , G06N3/0442
Abstract: 本发明公开了一种基于多模态注意力机制的医学图像报告自动生成方法,使用关键词数据集训练图像特征提取模型,并用该模型提取与图像描述相关的视觉特征,并基于关键词注意力机制和空间注意力机制,利用多模态注意力机制生成联合的上下文向量;上下文向量被输入到了一个句子LSTM,展开几步,然后在每一步都会产生一个主题向量,主题向量表示了所需要生成的句子的语义;给定一个主题向量,单词LSTM以它作为输入,然后生成一个单词序列,用于形成一个句子,这个过程的终止由句子LSTM控制;最后将形成的所有句子组合到一起,列出标签列表,就完成了医学图像报告的自动生成。该方法能有效解决撰写医学图像报告耗时费力,容易出错的问题。
-
公开(公告)号:CN113035311A
公开(公告)日:2021-06-25
申请号:CN202110340777.2
申请日:2021-03-30
Applicant: 广东工业大学
Abstract: 本发明公开了一种基于多模态注意力机制的医学图像报告自动生成方法,使用关键词数据集训练图像特征提取模型,并用该模型提取与图像描述相关的视觉特征,并基于关键词注意力机制和空间注意力机制,利用多模态注意力机制生成联合的上下文向量;上下文向量被输入到了一个句子LSTM,展开几步,然后在每一步都会产生一个主题向量,主题向量表示了所需要生成的句子的语义;给定一个主题向量,单词LSTM以它作为输入,然后生成一个单词序列,用于形成一个句子,这个过程的终止由句子LSTM控制;最后将形成的所有句子组合到一起,列出标签列表,就完成了医学图像报告的自动生成。该方法能有效解决撰写医学图像报告耗时费力,容易出错的问题。
-
公开(公告)号:CN112396018B
公开(公告)日:2023-06-06
申请号:CN202011364578.7
申请日:2020-11-27
Applicant: 广东工业大学
IPC: G06V40/20 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法,包括:实时提取运动员的人物图像、运动姿态序列、光流数据;将人物图像送入双流网络的空间流网络中,获取运动员空间特征;将运动姿态序列作为有向图传入多层的图卷积神经网络中,获得运动员运动时的姿态时空特征;将每一帧光流数据先经过卷积神经网络提取特征后再送入时间关系网络,获取运动员的光流运动信息特征;分别将得到的三种特征两两配对,得到三种聚合特征并分别送入卷积神经网络中,得到三种融合特征并将其加权融合得到最终的整体人体多模态融合运动特征,将其送入全连接网络中得到最终的动作分类识别结果。本发明提高了运动员犯规动作识别准确度。
-
公开(公告)号:CN112396018A
公开(公告)日:2021-02-23
申请号:CN202011364578.7
申请日:2020-11-27
Applicant: 广东工业大学
Abstract: 本发明公开了一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法,包括:实时提取运动员的人物图像、运动姿态序列、光流数据;将人物图像送入双流网络的空间流网络中,获取运动员空间特征;将运动姿态序列作为有向图传入多层的图卷积神经网络中,获得运动员运动时的姿态时空特征;将每一帧光流数据先经过卷积神经网络提取特征后再送入时间关系网络,获取运动员的光流运动信息特征;分别将得到的三种特征两两配对,得到三种聚合特征并分别送入卷积神经网络中,得到三种融合特征并将其加权融合得到最终的整体人体多模态融合运动特征,将其送入全连接网络中得到最终的动作分类识别结果。本发明提高了运动员犯规动作识别准确度。
-
-
-