-
公开(公告)号:CN112989836A
公开(公告)日:2021-06-18
申请号:CN202110454738.5
申请日:2021-04-26
Applicant: 华东理工大学
IPC: G06F40/295 , G06F16/951
Abstract: 本发明公开了一种基于预训练语言模型和位置信息的文本结构化方法。本发明包括以下步骤:步骤1:从新闻网站爬取文本作为原语料交由人工标注,并对其进行预处理;步骤2:使用预处理后的文本训练BERT‑CRF来识别姓名、性别、体貌特征、身高等通用实体;步骤3:将每条文本中的通用实体作为输入,训练多标签分类模型BERT‑Dense,输出每个实体所属的相关人群类型;步骤4:以相关人群姓名作为主体词,根据文本的结构特性,基于位置特征获取该主体词的属性,得到最终的多主体文本结构化。本发明适用于领域性的多主体文本结构化任务,通过分层结构化和基于位置信息组成多元组的方式,有效提高对新闻文本结构化的准确率和效率。
-
公开(公告)号:CN118886420A
公开(公告)日:2024-11-01
申请号:CN202310498784.4
申请日:2023-05-05
Applicant: 华东理工大学
IPC: G06F40/279 , G06F40/30 , G06F18/24 , G06F17/16 , G06N20/20
Abstract: 本发明公开了一种基于双向机制的关系抽取算法。本发明提出了一种两阶段的抽取再评估的管道框架,包括以下步骤:(1)在抽取阶段,首先利用实体/关系抽取器,抽取给定输入文本的主体集、客体集以及关系类型;其次,设计面向主体的三元组抽取器,基于输入文本C、主体集S和潜在关系R,迭代抽取文本中所有面向主体的三元组#imgabs0#(2)在评估阶段,从主体角度、从客体角度和从关系角度评估三元组的质量。本发明适用于复杂关系抽取任务,通过设计一种新颖的基于双向机制的关系抽取算法,从主体到客体和客体到主体两个方向迭代抽取所有三元组元素,有效缓解数据不平衡的限制,并提高在复杂三元组情况下的性能。
-
公开(公告)号:CN118886419A
公开(公告)日:2024-11-01
申请号:CN202310497938.8
申请日:2023-05-05
Applicant: 华东理工大学
IPC: G06F40/279 , G06F40/216 , G06F16/35
Abstract: 本发明公开了一种基于对偶感知的医疗关系抽取算法。本发明包括以下步骤:首先利用基于跨度的实体识别模型,来识别主客体实体对;其次,采用结合实体标记技术的关系分类模型,对识别得到的主客体实体对进行分类;再次,提出对偶模块,基于对偶感知机制,设计对偶任务即利用已获取的关系类型来抽取主客体实体对;最后,设计匹配模块,通过校对主客体实体对来过滤错误三元组,获得最终的关系三元组结果。此外,针对上述框架即基于对偶感知的协同自适应框架CADA,设计协同自适应训练策略和协同自适应调优算法,来优化整个CADA框架的性能。本发明能有效提高医学领域的关系抽取任务的准确率,在一定程度上缓解了医学关系抽取的领域特异性问题。
-
公开(公告)号:CN119848184A
公开(公告)日:2025-04-18
申请号:CN202411195270.2
申请日:2024-08-29
Applicant: 华东理工大学
IPC: G06F16/3329 , G06F18/2411 , G06F18/2415
Abstract: 本发明公开了一种基于立体网络的关系抽取算法。本发明包括以下步骤:首先利用预训练语言模型作为文本编码器对输入文本进行编码;其次,设计一个立体网络作为实体对抽取器,用于计算头尾立方体中每个元素作为头尾实体对的概率,通过与预定义的阈值进行比较,获取一组候选头尾实体对;接着,在三元组立方体的所有关系矩阵中标记每个头尾实体对,基于共享文本编码器获得每个候选头尾实体对的上下文表示;最后,设计另一个新的立体网络作为三元组抽取器,用于确定每个头尾实体对之间的关系,获取最终的三元组结果。本发明适用于关系抽取任务,通过设计一种联合实体和关系抽取的新型立体网络框架,显著提高模型三元组抽取的精度。
-
公开(公告)号:CN119005322A
公开(公告)日:2024-11-22
申请号:CN202411017638.6
申请日:2024-07-29
Applicant: 华东理工大学
IPC: G06N5/025 , G06N5/04 , G06F40/295
Abstract: 本发明公开了一种基于大模型扩展标签增强的信息抽取算法。本发明包括以下步骤:以关系抽取为例,首先使用训练数据集中的文本和相应的头尾实体对来扩展预定义的关系类型;其次使用扩展的关系从验证数据集中的文本中抽取头尾实体对,若抽取的头尾实体对与真实实体对一致则保留相应的扩展关系;最后将保留的扩展关系集成到预定义的关系集合中,利用大模型在测试集上执行关系抽取任务,以此增强模型在关系抽取任务上的性能。本发明适用于利用大模型进行自然语言处理领域的信息抽取任务,通过设计一种基于大模型扩展标签增强的信息抽取算法,证明了大模型在执行信息抽取任务时存在的“虚假关联”现象,并进一步利用扩展类型标签来提升大模型的性能。
-
公开(公告)号:CN113076468B
公开(公告)日:2024-03-15
申请号:CN202110459415.5
申请日:2021-04-27
Applicant: 华东理工大学
IPC: G06F16/9532
Abstract: 本发明公开了一种基于领域预训练的嵌套事件抽取方法。本发明包括以下步骤:步骤1:获取领域语料并预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽文本数据进行人工标注得嵌套事件文本数据集;步骤2:利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用语言模型BERT内部增加新闻类别分类预训练任务;步骤3:定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;步骤4:采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集进行触发词和事件属性联合抽取。本发明适用于领域性的多主体嵌套事件抽取任务,通过预训练领域语言模型和预定义嵌套事件分层抽取模板,有效提高领域嵌套事件抽取的准确率。
-
公开(公告)号:CN113076468A
公开(公告)日:2021-07-06
申请号:CN202110459415.5
申请日:2021-04-27
Applicant: 华东理工大学
IPC: G06F16/9532
Abstract: 本发明公开了一种基于领域预训练的嵌套事件抽取方法。本发明包括以下步骤:步骤1:获取领域语料并预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽文本数据进行人工标注得嵌套事件文本数据集;步骤2:利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用语言模型BERT内部增加新闻类别分类预训练任务;步骤3:定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;步骤4:采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集进行触发词和事件属性联合抽取。本发明适用于领域性的多主体嵌套事件抽取任务,通过预训练领域语言模型和预定义嵌套事件分层抽取模板,有效提高领域嵌套事件抽取的准确率。
-
-
-
-
-
-