-
公开(公告)号:CN111563379B
公开(公告)日:2022-12-02
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN114970456A
公开(公告)日:2022-08-30
申请号:CN202210582102.3
申请日:2022-05-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种端到端的大规模中文词向量压缩方法,包括:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,其中编码书为压缩编码矩阵。上述方案利用中文词性保留了语义信息,属于同一词性的压缩编码共用同一本码书,实现相同词性间的语义信息共享,保持模型语义分析性能的同时进一步缩减了大规模词表的压缩编码,提高模型的压缩率,实现了对大规模中文词向量模型的有效压缩。本发明还提出了对应的中文词向量压缩系统和存储介质。
-
公开(公告)号:CN112214600A
公开(公告)日:2021-01-12
申请号:CN202011131344.8
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN111026835A
公开(公告)日:2020-04-17
申请号:CN201911365829.0
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/31 , G06F16/903 , G06F16/335 , G06F16/35
Abstract: 本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。
-
-
-