论辩知识图谱、文本图谱编码模型、基于图谱的预训练方法

    公开(公告)号:CN117252256A

    公开(公告)日:2023-12-19

    申请号:CN202311170792.2

    申请日:2023-09-12

    Applicant: 复旦大学

    Inventor: 魏忠钰 梁敬聪

    Abstract: 本发明的目的是提供一种论辩知识图谱及其自动化构建方法、一种同时编码文本与图谱的模型及其预训练方法,以及一种利用图谱信息二次预训练模型的方法。所述方法包括:将论点与论据句子组织为句子内语义图谱和句子间逻辑图谱,并能够从原始论辩语料自动化构建;结合预训练语言模型和图神经网络编码文本和图谱信息,并在其中实现两类信息的交互,相应模型通过多种自监督任务在论辩语料上预训练;通过图谱信息扩充预训练预料内容,并增加相应的预训练任务,应用于所述模型或其它预训练语言模型的二次预训练。本发明能够有效整合各类论辩语料的信息,并为语言模型提供清晰准确的论辩语义、逻辑信息,有助于模型完成需要复杂推理论证的论辩场景任务。

    一种模型训练方法、装置、设备及可读存储介质

    公开(公告)号:CN116468096A

    公开(公告)日:2023-07-21

    申请号:CN202310362160.X

    申请日:2023-03-30

    Abstract: 本说明书公开了一种模型训练方法、装置、设备及可读存储介质,基于共同发起业务的关系构建第一训练样本组,基于各用户针对各业务的指定行为构建第二训练样本组。根据各用户的言论文本、各业务、第一训练样本组和第二训练样本组训练特征提取模型,之后,根据训练完成的特征提取模型、所述第三训练样本和所述第三训练样本的标注,训练待训练的预测模型。可见,通过构建第一训练样本组和第二训练样本组,结合用户的言论文本以训练特征提取模型的方案,针对用户从未执行过的业务,也可以有效地从用户的言论文本中提取得到用于表征用户对于执行不同类型的业务的态度和立场的用户特征,从而提高预测准确率。

    基于电子病历的传染病自动检测方法

    公开(公告)号:CN116072251A

    公开(公告)日:2023-05-05

    申请号:CN202211342147.X

    申请日:2022-10-31

    Applicant: 复旦大学

    Inventor: 魏忠钰 赵丽敏

    Abstract: 本发明的目的是提供一种基于电子病历的传染病自动检测方法,所述方法包括:电子病历的预处理,例如缺失值填充;特征表示方法,包括独热编码和分布式表示,用于将类别特征表示为机器可识别的向量形式;特征选择方法,包括基于统计学的方法和基于强化学习的方法,用于从大型特征集合中快速有效地筛选出有效的特征子集;下游分类算法,包括常用的四种机器学习算法和一种深度学习算法,用于基于特征子集的传染病分类鉴别。实验表明,基于强化学习的方法可以通过自动选择最有效的特征子集来极大改善模型的分类性能,本发明提出的传染病自动诊断程序可以帮助医生进行感染识别和高危人群的定位。

    图像文本检索模型的建模方法
    4.
    发明公开

    公开(公告)号:CN115221347A

    公开(公告)日:2022-10-21

    申请号:CN202210660120.9

    申请日:2022-06-13

    Applicant: 复旦大学

    Inventor: 魏忠钰 范智昊

    Abstract: 本申请实施例提供了一种图像文本检索模型的建模方法,包括以下步骤:基于掩码语言模型(MLM)生成合成负样本句;使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM);通过单词辨别任务WoC和单词校正任务WoD来对合成负样本与正样本句的区别进行训练。本申请实施例提出了一种基于生成负样本句的方法来构建负样本,以提高图文检索模型的训练效率。为了充分利用合成负样本句,本申请还提出了两个训练任务,单词辨别任务和单词校正任务,以结合细粒度的监督信号来增强多模态局部对应建模。本申请实施例构建出的模型在两个公共数据集MS‑COCO和Flickr30K上均达到了最先进的性能。

    社交媒体用户表征模型,模型的预训练方法、文本图框架

    公开(公告)号:CN117421648A

    公开(公告)日:2024-01-19

    申请号:CN202311078580.1

    申请日:2023-08-25

    Applicant: 复旦大学

    Inventor: 魏忠钰 吴焜

    Abstract: 本发明的目的提供一种社交媒体用户表征模型,模型的预训练方法、以及模型设计中的文本图框架,所述方法包括:通过对社交媒体用户的言论进行分词来构建不同粒度的文本语义表示,通过点互信息方法构建文本之间的关系,进一步通过文本图模型构建用户表示;基于社交网络中的用户关注信息,在预训练阶段构建了多个自监督训练任务,通过用户间、用户内两个层次的任务,训练模型能够对不同社群下的不同用户、不同社群下的同一用户的表示进行分辨,得到融合社交媒体通用结构信息的用户表征模型以完成下游的多种社交媒体用户级别任务。

    一种通用的框架检测方法及装置
    6.
    发明公开

    公开(公告)号:CN115796162A

    公开(公告)日:2023-03-14

    申请号:CN202211342143.1

    申请日:2022-10-31

    Applicant: 复旦大学

    Inventor: 魏忠钰 牟馨忆

    Abstract: 本发明公开了一种通用的框架检测方法及装置,所述方法包括:基于框架枢轴训练域编码器;基于提示学习微调域编码器、事件特定提示编码器和共享提示编码器;在新场景中应用域编码器和提示编码器;其中,所述框架枢轴有预设数量的框架枢轴;按照预设概率随机遮盖所述框架枢轴用于训练域编码器;在通用训练文档上进行框架检测和对抗训练,以微调域编码器、事件特定提示编码器和共享提示编码器;之后,将域编码器和提示编码器运用到不同场景不同类型的文档的框架检测中。上述实施方式可以应对不同场景和主题下的框架检测,更好地适应动态改变的事件和政治议程。

    模型训练方法及装置、医疗诊断表格描述方法、无监督生成文本质量评价指标

    公开(公告)号:CN115796129A

    公开(公告)日:2023-03-14

    申请号:CN202211342162.4

    申请日:2022-10-31

    Applicant: 复旦大学

    Inventor: 魏忠钰 李秉轩

    Abstract: 本发明的目的是提供一种模型训练方法及装置、医疗诊断表格描述方法、无监督生成文本质量评价指标,同时提出了肌电图报告自动生成任务及对应的数据集。所述方法包括:根据医院提供的病人诊断报告表格和对应的标准值参照表获取所有表格中的异常单元,按照制定的标准模板对所有异常单元进行描述并生成一段描述文本;将所述文本和期望生成的标准文本对用于模型训练;最后提供一种无监督的评价指标用于从事实上检测模型生成的文本质量;同时提供了一个特定的肌电图报告自动生成任务的数据集。上述实施方式可以为医生在撰写诊断报告时提供参考生成,有效提高医生的工作效率并可以弥补其临床经验上的不足。

    基因本体项名称生成方法、装置及存储介质

    公开(公告)号:CN112509640A

    公开(公告)日:2021-03-16

    申请号:CN202011135040.9

    申请日:2020-10-22

    Applicant: 复旦大学

    Abstract: 本发明的目的是提供一种基因本体项名称生成方法方法、装置及存储介质,所述基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。

    在消息交互传播中进行谣言判别的方法及装置

    公开(公告)号:CN112528015B

    公开(公告)日:2022-11-18

    申请号:CN202011154448.0

    申请日:2020-10-26

    Applicant: 复旦大学

    Inventor: 魏忠钰 陈蕾

    Abstract: 本发明公开了一种在消息交互传播中进行谣言判别的方法及装置,其涉及人工智能识别技术领域,包括:对帖子的文本信息进行编码,并分析相关联的帖子之间的关系,从而生成消息交互的控制向量a;根据动态时间序列模型捕获交互信息的变化,应用注意力机制将各个时间阶段信息进行聚合,对帖子是否属于谣言进行预测;基于消息交互的控制向量a得到模型总体的损失函数,计算损失函数然后进行梯度回传,从而对提出模型进行训练和拟合,计算得到模型的最优参数网络,使用最优参数网络下的模型对帖子是否属于谣言进行预测。本申请能够通过传播过程中信息交互模式的建模和与交互模式的时序演化特征捕捉时间动态结构匹配以提高谣言判别的准确性。

    基因本体项名称生成方法、装置及存储介质

    公开(公告)号:CN112509640B

    公开(公告)日:2022-08-19

    申请号:CN202011135040.9

    申请日:2020-10-22

    Applicant: 复旦大学

    Abstract: 本发明的目的是提供一种基因本体项名称生成方法方法、装置及存储介质,所述基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。

Patent Agency Ranking