一种基于多模态主动学习的中文分词方法

    公开(公告)号:CN115496064A

    公开(公告)日:2022-12-20

    申请号:CN202210796242.0

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于多模态主动学习的中文分词方法,使用音频特征作为模型补充输入,利用声学信息帮助分词。为了减少音频特征工程工作量,仅使用MFCC特征利用深度卷积神经网络ResNet进行音频特征提取。同时引入依存句法信息,利用异构图注意力神经网络实现依存句法结构图节点特征更新,使用注意力机制融合文本特征和句法结构特征得到句法文本特征,以缓解标注语料匮乏问题。本发明使用了主动学习策略,构造多样性预测模块,预测未标注样本所含信息量,选择富含信息的未标注样本进行人工标注,与已标注样本一起作为训练数据迭代提升模型性能。本发明在减少数据标注代价的基础上,在中文分词的各方面性能都较其他基线方法有了一定提升。

    一种基于句法和面部特征的图融合的多模态社交关系抽取模型

    公开(公告)号:CN117874255A

    公开(公告)日:2024-04-12

    申请号:CN202410043517.2

    申请日:2024-01-11

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于句法和面部特征的图融合的多模态社交关系抽取模型。该方法在文本层面融入词性、依存边和依存标签三种句法信息,在图片层面使用Transformer来建模头尾实体面部的隐式关联信息。为了构建多模态图神经网络,将头尾实体对应的词向量最大池化成两个文本节点,对应的面部表征则设为两个视觉节点;同时每一个文本节点都与其它两个视觉节点相连,每一个视觉节点都与其它两个文本节点相连。接着利用跨模态注意力机制实现多模态特征的融合。此外,由于数据集中样本分布不均衡,大量社交关系类别对应的样本数稀少,本发明基于原型网络进行少样本学习。实验结果表明,该方法可以有效融入句法和面部特征,并通过多模态融合生成更高质量的文本向量。在少样本学习的各种实验设置下,模型分类准确率大幅领先其它基准方法。

    多模态大型语言模型训练、装置、存储介质以及电子装置

    公开(公告)号:CN118690872A

    公开(公告)日:2024-09-24

    申请号:CN202410628558.8

    申请日:2024-05-20

    Applicant: 东南大学

    Abstract: 本发明公开一种多模态大型语言模型训练、装置、存储介质以及电子装置,其技术要点是:构建多模态数据集,并对其中的数据对进行严格过滤,以保证数据对的内容与文本描述紧密相关;使用筛选后的前述数据对,对学生模型中的特征对齐层进行预训练,以学习如何匹配图像的视觉特征和文本的语义特征,基于训练完毕的特征对齐层,进行多模态指令微调,进行多模态指令微调,使所述学生模型对所提出问题的回答与教师模型给出的多模态回答保持一致;进行多模态数据质量评估,生成多模态数据,以生成更多的新指令并将其与原始图像相结合,构建新的多模态指令数据集来训练所述学生模型,迭代增强所述学生模型的多模态能力。

Patent Agency Ranking