基于BIE位置词列表的中文文本数据字向量表征方法

    公开(公告)号:CN114282538A

    公开(公告)日:2022-04-05

    申请号:CN202111426052.1

    申请日:2021-11-24

    Abstract: 本发明涉及一种基于BIE位置词列表的中文文本数据字向量表征方法,涉及深度学习、命名实体识别领域,包括以下步骤:S1:生成全量词集与强相关词集,并构建BIE位置词列表;S2:利用字向量的原始表征构建位置无关性词向量;S3:基于词频加权平均池化算法缩合词集中的词向量表征;S4:将字的BIE位置词向量加权并与原始字向量拼接,生成包含词汇位置信息的字向量。本发明在字向量中融入词汇的全量位置信息的同时,能够突出强相关词汇位置信息。扩展字向量表征维度,使得中文实体识别结果具有更高的准确性。

    一种适用于多领域的中文命名实体识别方法

    公开(公告)号:CN114048749A

    公开(公告)日:2022-02-15

    申请号:CN202111374828.X

    申请日:2021-11-19

    Abstract: 本发明属于命名实体识别领域,具体涉及一种适用于多领域的中文命名实体识别方法,该方法包括:对中文命名实体数据集进行特定的领域分类;采用样本学习法对领域分类后的数据进行采样,得到数据集,将数据集输入到模型的共享编码表示层;通过域分类器,得到数据的所属领域概率分布,各领域专家层提取领域独有特征,公共专家层根据所属领域概率分布综合各领域专家的特征,将各专家层提取的特征输入到对应的CRF层,得到实体识别结果;本发明将多任务学习技术应用到中文命名实体识别领域中,不同域的数据被单独视为一个训练任务并设计特定的多专家模型结构来提取域独有特征和域共有特征,使不同域之间相互辅助,提升识别效果。

Patent Agency Ranking