一种基于预训练模型和位置信息的文本结构化方法

    公开(公告)号:CN112989836A

    公开(公告)日:2021-06-18

    申请号:CN202110454738.5

    申请日:2021-04-26

    Abstract: 本发明公开了一种基于预训练语言模型和位置信息的文本结构化方法。本发明包括以下步骤:步骤1:从新闻网站爬取文本作为原语料交由人工标注,并对其进行预处理;步骤2:使用预处理后的文本训练BERT‑CRF来识别姓名、性别、体貌特征、身高等通用实体;步骤3:将每条文本中的通用实体作为输入,训练多标签分类模型BERT‑Dense,输出每个实体所属的相关人群类型;步骤4:以相关人群姓名作为主体词,根据文本的结构特性,基于位置特征获取该主体词的属性,得到最终的多主体文本结构化。本发明适用于领域性的多主体文本结构化任务,通过分层结构化和基于位置信息组成多元组的方式,有效提高对新闻文本结构化的准确率和效率。

Patent Agency Ranking