融合词汇和句法信息的中文命名实体识别方法及系统

    公开(公告)号:CN114818717B

    公开(公告)日:2024-08-20

    申请号:CN202210575509.3

    申请日:2022-05-25

    Applicant: 华侨大学

    Abstract: 本发明公开一种融合词汇和句法信息的中文命名实体识别方法及系统,包括以下步骤:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。本发明能够解决中文命名实体中实体边界信息不足的问题和融合输入文本的句法信息。

    基于BERT模型和种子LDA模型的话题检测方法及装置

    公开(公告)号:CN116975281A

    公开(公告)日:2023-10-31

    申请号:CN202310759929.1

    申请日:2023-06-26

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于BERT模型和种子LDA模型的话题检测方法及装置,涉及自然语言处理领域,获取原始文本集,对原始文本集进行预处理,得到文本集;构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将文本集中所有文本的融合特征向量输入K‑means算法进行聚类,得到若干个话题簇;基于若干个话题簇采用TF‑IDF算法提取出话题,解决LDA模型对短文本的主题提取效果不好,同时忽略词语的上下文信息等问题。

    融合词汇和句法信息的中文命名实体识别方法及系统

    公开(公告)号:CN114818717A

    公开(公告)日:2022-07-29

    申请号:CN202210575509.3

    申请日:2022-05-25

    Applicant: 华侨大学

    Abstract: 本发明公开一种融合词汇和句法信息的中文命名实体识别方法及系统,包括以下步骤:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。本发明能够解决中文命名实体中实体边界信息不足的问题和融合输入文本的句法信息。

Patent Agency Ranking