一种基于主动学习的命名实体识别方法和系统

    公开(公告)号:CN113919358A

    公开(公告)日:2022-01-11

    申请号:CN202111294527.6

    申请日:2021-11-03

    Abstract: 本发明给出了一种基于主动学习的命名实体识别方法和系统,包括获取待训练文本数据,对部分待训练文本数据进行标注;对每条文本进行预训练获得字符向量矩阵,将其中的字符向量输入双向LSTM进行训练,获得输入文本的语义信息特征;利用自注意力机制获取每条文本中字之间的相互关系,并将结果输出至条件随机场,计算输入字对应的最优标签序列,以最大概率的序列作为字的最终实体类别标签,获取标注文本数据的训练模型;利用训练模型对未标注文本数据进行预测,确定该条文本的置信度值,响应于一文本的置信度大于预设阈值,将该条文本作为待标注数据集进行标注,并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。

    一种评论文本观点信息处理方法、装置及存储介质

    公开(公告)号:CN111783474B

    公开(公告)日:2023-04-07

    申请号:CN202010684529.5

    申请日:2020-07-16

    Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。

    基于深度可分离卷积的语义特征处理方法、装置及介质

    公开(公告)号:CN112052687A

    公开(公告)日:2020-12-08

    申请号:CN202010912076.7

    申请日:2020-09-02

    Abstract: 本发明提出了一种基于深度可分离卷积的语义特征处理方法、装置及介质,该方法包括:获取聊天数据使用词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量后拼接得到三维特征张量;使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。本发明首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度,并设计了多尺度深度可分离一维卷积核获取子片段的语义特征,再提取每个卷积核中的最显著特征拼接成为该子片段的语义特征向量,其提取语义特征连续,更为符合聊天数据的上下文特征。

    一种评论文本观点信息处理方法、装置及存储介质

    公开(公告)号:CN111783474A

    公开(公告)日:2020-10-16

    申请号:CN202010684529.5

    申请日:2020-07-16

    Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。

Patent Agency Ranking