-
公开(公告)号:CN111783474B
公开(公告)日:2023-04-07
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
公开(公告)号:CN112214601B
公开(公告)日:2022-06-10
申请号:CN202011131358.X
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN112214601A
公开(公告)日:2021-01-12
申请号:CN202011131358.X
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN112214600B
公开(公告)日:2022-06-10
申请号:CN202011131344.8
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN111078887B
公开(公告)日:2022-04-29
申请号:CN201911326228.9
申请日:2019-12-20
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本申请实施例公开了文本分类方法和装置。该方法的一具体实施方式包括:获取待分类文本;对待分类文本进行分词,得到词语列表;对待分类本文中的文字进行声调划分,得到声调组合列表;确定词语列表中的每个词语的词向量,以及确定声调组合列表中的每个声调组合的声调向量;将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征待分类文本的类别的标签。该实施方式实现了将词向量和声调向量相结合,从词和声调两个维度分别提取文本的语义和语调特征,使用这些特征可以有效地改善字/词级特征存在的不足,提高文本分类的准确性。
-
公开(公告)号:CN113919358A
公开(公告)日:2022-01-11
申请号:CN202111294527.6
申请日:2021-11-03
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明给出了一种基于主动学习的命名实体识别方法和系统,包括获取待训练文本数据,对部分待训练文本数据进行标注;对每条文本进行预训练获得字符向量矩阵,将其中的字符向量输入双向LSTM进行训练,获得输入文本的语义信息特征;利用自注意力机制获取每条文本中字之间的相互关系,并将结果输出至条件随机场,计算输入字对应的最优标签序列,以最大概率的序列作为字的最终实体类别标签,获取标注文本数据的训练模型;利用训练模型对未标注文本数据进行预测,确定该条文本的置信度值,响应于一文本的置信度大于预设阈值,将该条文本作为待标注数据集进行标注,并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。
-
公开(公告)号:CN111563379A
公开(公告)日:2020-08-21
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN111563379B
公开(公告)日:2022-12-02
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN112214600A
公开(公告)日:2021-01-12
申请号:CN202011131344.8
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN111783474A
公开(公告)日:2020-10-16
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
-
-
-
-
-
-
-
-