-
公开(公告)号:CN110399489B
公开(公告)日:2022-06-17
申请号:CN201910611047.4
申请日:2019-07-08
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开了一种聊天数据分段方法及装置,该方法包括以下步骤:S1:对聊天数据进行切分获得多个预分段段落;S2:通过话题切换的特征语句库与预分段段落的句子向量相似度判断预分段段落是否是包含不同话题内容的段落,若是,则对预分段段落进行再分段获得再分段段落,并对再分段段落重复步骤S2,若否,则进入下一步;以及S3:通过计算相邻的再分段段落的段落向量相似度判断再分段段落是否存在内容相关的相邻的段落,若是,则对再分段段落进行合并获得终分段段落,对终分段段落重复步骤S3,若否,则将再分段段落作为终分段段落。通过此方法可以将不同话题的聊天数据进行有效的分段,提高聊天数据处理效率。
-
公开(公告)号:CN112214601B
公开(公告)日:2022-06-10
申请号:CN202011131358.X
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN112131506B
公开(公告)日:2022-04-29
申请号:CN202011013718.6
申请日:2020-09-24
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/958 , G06K9/62 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网页分类方法、终端设备及存储介质,该方法中包括:S1:采集多种类型的网页,根据每个网页中至少两种类型的特征构建图结构,并对网页的类型进行标记后,将所有具有类型标记的图结构组成训练集;S2:构建图卷积神经网络模型,通过训练集对图卷积神经网络模型进行训练,将训练后的模型作为网页分类模型;S3:针对待分类网页,根据步骤S1所述的至少两种类型的特征构建图结构后,通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型,相对现有网页分类方法,能有效的解决基于单一数据结构的网页分类方法的局限性,能够明显解决网页特征稀疏问题。
-
公开(公告)号:CN112711943A
公开(公告)日:2021-04-27
申请号:CN202011497407.1
申请日:2020-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/279 , G06F40/53 , G06F40/58 , G06F16/33 , G06N7/00
Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。
-
公开(公告)号:CN112214601A
公开(公告)日:2021-01-12
申请号:CN202011131358.X
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。
-
公开(公告)号:CN117173761A
公开(公告)日:2023-12-05
申请号:CN202310929300.7
申请日:2023-07-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06V40/16 , G06V40/40 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 公开了一种基于属性引导的深度伪造人脸图像检测方法和系统,包括接收人脸图像作为输入,经过主干网络进行特征提取;其中,输入图像包括属性标签和真伪标签;采用二值交叉熵作为人脸属性识别的多标签分类任务的损失函数Lbce;将属性识别和真伪图像检测的共享特征送入真伪分类层,在所述真伪标签的引导下进行真伪分类,所述真伪分类的损失函数采用交叉熵损失函数 整体任务的损失函数L= α是平衡两个损失的超参数。本申请在检测真伪的任务基础上多引入属性识别任务,两个任务共用最后一个嵌入层特征,属性识别的任务会更多去挖掘局部区域的特征信息,在属性标签的引导下,推动模型去挖掘局部特征,从而丰富整个伪造信息的特征表征。
-
公开(公告)号:CN112711943B
公开(公告)日:2023-11-24
申请号:CN202011497407.1
申请日:2020-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/279 , G06F40/53 , G06F40/58 , G06F16/33 , G06N7/01
Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。
-
公开(公告)号:CN114444497A
公开(公告)日:2022-05-06
申请号:CN202111564960.7
申请日:2021-12-20
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种基于多源特征的文本分类方法、终端设备及存储介质,该方法中包括:S1:接收文本并分词;S2:通过在LSTM网络中添加自注意力机制的方式,获取词注意力权重矩阵和字注意力权重矩阵;S3:构建关键词表,基于分词结果,从关键词表中查找核心关键词表;S4:采用N种关键词提取算法提取得到N个候选关键词表;S5:基于词注意力权重矩阵和字注意力权重矩阵,根据候选关键词表得到拓展关键词表和拓展关键字表;S6:将核心关键词表、拓展关键词表和拓展关键字表中的所有字和词作为关键词和关键字;S7:对关键词和关键字进行特征提取;S8:基于提取的特征,通过分类网络对文本的类别进行预测。本发明提高文本分类的准确率。
-
公开(公告)号:CN115409030A
公开(公告)日:2022-11-29
申请号:CN202211036268.1
申请日:2022-08-28
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于短语边界的关键信息匹配方法,该方法包括如下步骤:S1、获取训练数据集,基于获取的所述训练数据集构建短语边界识别模型,并进行模型的训练;S2、获取文本数据,导入所述短语边界识别模型将所述文本数据切分成短语;S3、从所述文本数据的文本切分结果中匹配出目标短语。通过本发明方案的关键短语匹配方法,在进行短语匹配时,不仅充分考虑分析上下文的语义信息,得到更精准的短语边界信息,有效排除目标语境下非短语的匹配结果。
-
公开(公告)号:CN115983248A
公开(公告)日:2023-04-18
申请号:CN202211501760.1
申请日:2022-11-28
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/279 , G06F40/216 , G06N3/08 , G06N3/0464
Abstract: 本发明给出了一种基于手机短信的行为分析方法,包括提取手机短信信息;对提取的短信数据进行人工标注,并根据不同短信内容将其归到不同类别;通过分层抽样的方法,按8:1:1区将数据分训练集、验证集和测试集;通过关键词比对、正则表达式、行为意图识别及关键要素提取进行处理,得到分析结果;将分析结果融合汇聚,输出用户的相关行为的刻画分析。在传统内容关键词比对、正则表达式分析基础上,利用人工智能文本语义分析技术及相关方法,面对海量的数据,全面深入智能分析短信内容,不用人工翻阅统计,刻画目标对象短信行为事件,为用户第一时间发现线索、固定证据、分析研判提供高效的技术手段。
-
-
-
-
-
-
-
-
-