-
公开(公告)号:CN111581970B
公开(公告)日:2023-01-24
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/048 , G06N3/09
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN115293920A
公开(公告)日:2022-11-04
申请号:CN202210971424.7
申请日:2022-08-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06Q50/00 , G06V10/74 , G06V10/762 , G06V10/80 , G06F40/295
Abstract: 本发明提出一种基于多模态数据的社交关系分析方法,包括:S1,提取人员的社交文本和社交图像信息,分别转换为文本特征和图像特征,并统计人员亲密度,基于人员亲密度构建人员社交网络图;S2,将文本特征和图像特征输入基于transformer的多模态融合模型,获得融合特征;S3,采用Si‑SCAN图聚类算法对人员社交网络图进行分析,获得社交关系聚类结果,其中,Si‑SCAN图聚类算法通过在SCAN算法基础上引入人员亲密度和融合特征信息构建。本发明基于文本、图像两个模态的信息对社交关系进行深入分析,通过多模态信息融合模型的设计,学习跨模态间的交互关系,生成多模态融合的图节点嵌入表征。通过图聚类分析,实现对社交网络的深层关系分析,能够有效发现潜在的社交关联。
-
公开(公告)号:CN111061877A
公开(公告)日:2020-04-24
申请号:CN201911261471.7
申请日:2019-12-10
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本申请实施例公开了文本主题提取方法和装置。该方法的一具体实施方式包括:待处理文本并对待处理文本进行分词,得到词语序列;利用预先训练的词向量模型,确定词语序列中的每个词语的词向量;对所得到的词向量进行聚类,得到至少一个主题簇;对于至少一个主题簇中的每个主题簇,基于该主题簇包括的词向量,确定该主题簇的主题向量;基于词语序列中的每个词语的词向量,确定待处理文本的文本向量;确定每个主题向量与文本向量的相似度;基于所确定的相似度,确定表征待处理文本的主题。该实施方式实现了对诸如聊天文本等主题数量较多、主题交叉严重等特点的文本,通过确定各个主题的主题向量与整个文本进行相似度计算,提高主题提取的准确性。
-
公开(公告)号:CN117312551A
公开(公告)日:2023-12-29
申请号:CN202310930896.2
申请日:2023-07-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F16/9536 , G06F16/951 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/042 , G06N3/0464 , G06N3/09 , G06Q50/00
Abstract: 本申请提出一种基于图卷积网络的社交文本分类方法,包括步骤:获取社交文本数据,社交文本数据包括用户和用户的文本内容;对每个用户的文本内容进行计算,应用训练好的BERT‑attention模型获得用户文本向量;以用户文本向量为节点,以用户间发送的文本内容的数量为边,构建用户关联图;基于用户关联图进行图卷积运算,获得关联文本向量;基于关联文本向量以及用户文本向量,获得用户的文本内容的分类标签。本发明的方案以BERT、图卷积神经网络为技术基础,不仅关注于人物自身的聊天文本,还从人物的整体社交内容进行信息挖掘与建模,对人物之间的关联进行量化,提高了社交文本分类的准确性。
-
公开(公告)号:CN115221321A
公开(公告)日:2022-10-21
申请号:CN202210851412.0
申请日:2022-07-19
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/211 , G06F16/901 , G06N3/04 , G06N3/08
Abstract: 本申请提出了一种基于多层次语义编码的特定目标情感分析方法,该方法包括以下步骤:S1、获取待分析文本,对待分析文本进行分词;S2、使用句法解析工具对分词的结果进行解析,生成依存句法树,并根据依存句法树构建句法遮盖矩阵;S3、将待分析文本的分词结果转换为词向量二维矩阵,使用transformer模型对词向量二维矩阵进行编码,获取待分析文本的浅层语义特征;S4、将句法遮盖矩阵和浅层语义特征输入至句法注意力网络,获取深层语义特征;以及S5、根据深层语义特征计算特定目标的文本表示向量,最终获得特定目标的情感分类。该方法可应用于特定目标情感分类任务,而且句法注意力组件的可扩展性也为自然语言处理领域的其他任务提供了新的思路。
-
公开(公告)号:CN112214601B
公开(公告)日:2022-06-10
申请号:CN202011131358.X
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN112214601A
公开(公告)日:2021-01-12
申请号:CN202011131358.X
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN115827865A
公开(公告)日:2023-03-21
申请号:CN202211557661.5
申请日:2022-12-06
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F16/36 , G06F16/903 , G06F40/268 , G06F40/289 , G06F18/2415 , G06N3/045 , G06N3/042 , G06N3/048 , G06N3/047
Abstract: 本发明提出了一种融合多特征图注意力机制的不良文本分类方法,该方法包括如下步骤:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。本发明针对社交媒体中不良文本的分类任务,通过从不良文本的特征和文本语义角度出发,结合图注意力机制、Transformer和Bi_GRU构建了一种短文本分类模型。该模型为深度学习在不良文本分类任务上的应用提供了一种新的思路,解决了深度学习模型在不良文本分类问题泛化性差、精度较低的问题。
-
公开(公告)号:CN112214600B
公开(公告)日:2022-06-10
申请号:CN202011131344.8
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN113919358A
公开(公告)日:2022-01-11
申请号:CN202111294527.6
申请日:2021-11-03
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明给出了一种基于主动学习的命名实体识别方法和系统,包括获取待训练文本数据,对部分待训练文本数据进行标注;对每条文本进行预训练获得字符向量矩阵,将其中的字符向量输入双向LSTM进行训练,获得输入文本的语义信息特征;利用自注意力机制获取每条文本中字之间的相互关系,并将结果输出至条件随机场,计算输入字对应的最优标签序列,以最大概率的序列作为字的最终实体类别标签,获取标注文本数据的训练模型;利用训练模型对未标注文本数据进行预测,确定该条文本的置信度值,响应于一文本的置信度大于预设阈值,将该条文本作为待标注数据集进行标注,并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。
-
-
-
-
-
-
-
-
-