-
公开(公告)号:CN115827865A
公开(公告)日:2023-03-21
申请号:CN202211557661.5
申请日:2022-12-06
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F16/36 , G06F16/903 , G06F40/268 , G06F40/289 , G06F18/2415 , G06N3/045 , G06N3/042 , G06N3/048 , G06N3/047
Abstract: 本发明提出了一种融合多特征图注意力机制的不良文本分类方法,该方法包括如下步骤:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。本发明针对社交媒体中不良文本的分类任务,通过从不良文本的特征和文本语义角度出发,结合图注意力机制、Transformer和Bi_GRU构建了一种短文本分类模型。该模型为深度学习在不良文本分类任务上的应用提供了一种新的思路,解决了深度学习模型在不良文本分类问题泛化性差、精度较低的问题。
-
公开(公告)号:CN115408495A
公开(公告)日:2022-11-29
申请号:CN202211023077.1
申请日:2022-08-25
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/33 , G06F16/35 , G06F16/9536 , G06F40/247 , G06F40/284 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法,包括:S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词;S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的关键词控制所述生成模型的句子生成方向;S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。本申请具有能够对生成模型的生成方向、生成数量进行控制的效果。
-
公开(公告)号:CN115293920A
公开(公告)日:2022-11-04
申请号:CN202210971424.7
申请日:2022-08-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06Q50/00 , G06V10/74 , G06V10/762 , G06V10/80 , G06F40/295
Abstract: 本发明提出一种基于多模态数据的社交关系分析方法,包括:S1,提取人员的社交文本和社交图像信息,分别转换为文本特征和图像特征,并统计人员亲密度,基于人员亲密度构建人员社交网络图;S2,将文本特征和图像特征输入基于transformer的多模态融合模型,获得融合特征;S3,采用Si‑SCAN图聚类算法对人员社交网络图进行分析,获得社交关系聚类结果,其中,Si‑SCAN图聚类算法通过在SCAN算法基础上引入人员亲密度和融合特征信息构建。本发明基于文本、图像两个模态的信息对社交关系进行深入分析,通过多模态信息融合模型的设计,学习跨模态间的交互关系,生成多模态融合的图节点嵌入表征。通过图聚类分析,实现对社交网络的深层关系分析,能够有效发现潜在的社交关联。
-
公开(公告)号:CN117194980A
公开(公告)日:2023-12-08
申请号:CN202311117065.X
申请日:2023-08-31
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F18/214 , G06F18/213 , G06F16/35 , G06F18/241 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明提出了一种基于文本标签预测的聊天话题识别方法及系统,该方法包括如下步骤:响应于获取所需处理的聊天数据信息并进行预处理;利用已训练的深度学习模型对预处理后的所述聊天数据信息进行处理,包括句子编码和序列标注;通过所述深度学习模型从所述聊天数据信息中识别出所需的特定内容并进行进一步处理。通过引入Sentence Bert对聊天发言进行语义特征提取,以句子作为语义单元输入到模型中,极大扩充了特征标注网络的长度限制;利用特征标注的方法,分别标注网络诈骗中常出现的行为,即使话术有更新,但真正关键的诱导行为不会有较大变化;通过改造卷积神经网络模型,使得模型能够进行序列标注任务,并保留了卷积神经网络较高的推理性能。
-
公开(公告)号:CN114970456A
公开(公告)日:2022-08-30
申请号:CN202210582102.3
申请日:2022-05-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种端到端的大规模中文词向量压缩方法,包括:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,其中编码书为压缩编码矩阵。上述方案利用中文词性保留了语义信息,属于同一词性的压缩编码共用同一本码书,实现相同词性间的语义信息共享,保持模型语义分析性能的同时进一步缩减了大规模词表的压缩编码,提高模型的压缩率,实现了对大规模中文词向量模型的有效压缩。本发明还提出了对应的中文词向量压缩系统和存储介质。
-
公开(公告)号:CN117312551A
公开(公告)日:2023-12-29
申请号:CN202310930896.2
申请日:2023-07-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F16/9536 , G06F16/951 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/042 , G06N3/0464 , G06N3/09 , G06Q50/00
Abstract: 本申请提出一种基于图卷积网络的社交文本分类方法,包括步骤:获取社交文本数据,社交文本数据包括用户和用户的文本内容;对每个用户的文本内容进行计算,应用训练好的BERT‑attention模型获得用户文本向量;以用户文本向量为节点,以用户间发送的文本内容的数量为边,构建用户关联图;基于用户关联图进行图卷积运算,获得关联文本向量;基于关联文本向量以及用户文本向量,获得用户的文本内容的分类标签。本发明的方案以BERT、图卷积神经网络为技术基础,不仅关注于人物自身的聊天文本,还从人物的整体社交内容进行信息挖掘与建模,对人物之间的关联进行量化,提高了社交文本分类的准确性。
-
公开(公告)号:CN115221321A
公开(公告)日:2022-10-21
申请号:CN202210851412.0
申请日:2022-07-19
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/211 , G06F16/901 , G06N3/04 , G06N3/08
Abstract: 本申请提出了一种基于多层次语义编码的特定目标情感分析方法,该方法包括以下步骤:S1、获取待分析文本,对待分析文本进行分词;S2、使用句法解析工具对分词的结果进行解析,生成依存句法树,并根据依存句法树构建句法遮盖矩阵;S3、将待分析文本的分词结果转换为词向量二维矩阵,使用transformer模型对词向量二维矩阵进行编码,获取待分析文本的浅层语义特征;S4、将句法遮盖矩阵和浅层语义特征输入至句法注意力网络,获取深层语义特征;以及S5、根据深层语义特征计算特定目标的文本表示向量,最终获得特定目标的情感分类。该方法可应用于特定目标情感分类任务,而且句法注意力组件的可扩展性也为自然语言处理领域的其他任务提供了新的思路。
-
公开(公告)号:CN114970456B
公开(公告)日:2024-09-24
申请号:CN202210582102.3
申请日:2022-05-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种端到端的大规模中文词向量压缩方法,包括:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,其中编码书为压缩编码矩阵。上述方案利用中文词性保留了语义信息,属于同一词性的压缩编码共用同一本码书,实现相同词性间的语义信息共享,保持模型语义分析性能的同时进一步缩减了大规模词表的压缩编码,提高模型的压缩率,实现了对大规模中文词向量模型的有效压缩。本发明还提出了对应的中文词向量压缩系统和存储介质。
-
公开(公告)号:CN117251568A
公开(公告)日:2023-12-19
申请号:CN202311096153.6
申请日:2023-08-29
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/284 , G06F40/216 , G06F40/211 , G06F16/951 , G06F18/241 , G06F18/214 , G06F18/10 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明提出了一种基于时序句子特征的社交文本情感分类方法及装置,包括:响应于获取社交文本数据;利用训练的基础分类器模型对获取的所述社交文本数据进行类别判断;根据判断的结果通过时间窗口对获取的所述社交文本的上下游关联句子进行截取,将获得的所述截取后的句子进行句向量的合成,使用tf‑dif平均求全转化为句向量;将所述句向量按照时序顺序输入Bi‑Lstm‑attention模型,得到目标文本最终的情感标签。在对文本进行情感分析时不仅纳入了当前文本,也对文本的前后句子综合的建模与计算,开创性的使用句向量作为模型输入向量,结合Bi‑Lst‑attention模型弥补了之前情感分析方法中对时序文本处理不足的问题,在社交app、社交论坛等情感极性分析、情感观点判断中有较好的使用前景。
-
公开(公告)号:CN117194723A
公开(公告)日:2023-12-08
申请号:CN202311065212.3
申请日:2023-08-23
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/901 , G06F16/9032 , G06F40/289 , G06F40/253 , G06F40/205 , G06F18/25 , G06N3/045 , G06N3/0455
Abstract: 本发明公开了一种基于图数据库的关系增强型检索方法、装置及可读介质,通过获取自然语言问句并进行分词处理,得到词语序列,并采用预训练语言模型生成问句中词语的词向量特征、表名的词向量特征和列名的词向量特征;基于表名的词向量特征和列名的词向量特征构建图数据库,根据问句中词语的词向量特征和图数据库采用自注意力机制生成深度关系融合特征;将问句中词语的词向量特征、表名的词向量特征、列名的词向量特征和深度关系融合特征拼接得到联合特征向量,将联合特征向量输入经训练的Text2AQL模型,得到语法树,根据语法树采用抽象语法描述语言规范映射得到AQL查询语句,能够降低用户与图数据库的交互难度,提升用户的体验感。
-
-
-
-
-
-
-
-
-