-
公开(公告)号:CN113919358A
公开(公告)日:2022-01-11
申请号:CN202111294527.6
申请日:2021-11-03
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明给出了一种基于主动学习的命名实体识别方法和系统,包括获取待训练文本数据,对部分待训练文本数据进行标注;对每条文本进行预训练获得字符向量矩阵,将其中的字符向量输入双向LSTM进行训练,获得输入文本的语义信息特征;利用自注意力机制获取每条文本中字之间的相互关系,并将结果输出至条件随机场,计算输入字对应的最优标签序列,以最大概率的序列作为字的最终实体类别标签,获取标注文本数据的训练模型;利用训练模型对未标注文本数据进行预测,确定该条文本的置信度值,响应于一文本的置信度大于预设阈值,将该条文本作为待标注数据集进行标注,并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。
-
公开(公告)号:CN112052687B
公开(公告)日:2023-11-21
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06F18/214
-
公开(公告)号:CN111783474B
公开(公告)日:2023-04-07
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
公开(公告)号:CN116049387A
公开(公告)日:2023-05-02
申请号:CN202111257904.9
申请日:2021-10-27
Applicant: 广州市刑事科学技术研究所 , 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/216 , G06F40/211 , G06F18/241 , G06N3/042 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出了一种基于图卷积的短文本分类方法、装置、设备及存储介质,该方法包括:对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于上述结果构建多特征融合图的矩阵;使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;构建位置嵌入向量,后与单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,进行分类。本发明提出了融合词性、依存性、文档信息的文本多特征图表示方法,提升分类的准确率,克服了背景技术中的缺陷。
-
公开(公告)号:CN112052687A
公开(公告)日:2020-12-08
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06K9/62
Abstract: 本发明提出了一种基于深度可分离卷积的语义特征处理方法、装置及介质,该方法包括:获取聊天数据使用词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量后拼接得到三维特征张量;使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。本发明首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度,并设计了多尺度深度可分离一维卷积核获取子片段的语义特征,再提取每个卷积核中的最显著特征拼接成为该子片段的语义特征向量,其提取语义特征连续,更为符合聊天数据的上下文特征。
-
公开(公告)号:CN111783474A
公开(公告)日:2020-10-16
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
-
-
-
-