一种基于实体词影响区域评估标准的无监督文本多标签标记方法

    公开(公告)号:CN116644182A

    公开(公告)日:2023-08-25

    申请号:CN202310675101.8

    申请日:2023-06-08

    Applicant: 南京大学

    Inventor: 王锐 檀潮 刘峰

    Abstract: 基于实体词影响区域评估标准的无监督文本多标签标记方法包括如下步骤:1)准备阶段,准备待标记文本集作为语料,通过分词、词嵌入、词向量聚类得到对语料总体内容有归纳意义的有限组词集,各词集计算出一词作为词集的标签。2)建模阶段,将语料切分为句集并基于标签词集进行IOB格式标注,训练NER模型并保存最优模型参数。3)标记阶段,用NER模型识别出待标记文本中的实体词及位置,基于实体词影响区域描述实体词对标签的代表程度,基于TF‑IDF、TextRank、LDA模型描述实体词对文本的特征程度,对文本进行各标签成分分数计算并标记有归纳意义的多标签,应用于文本的理解、归类与检索。

Patent Agency Ranking