-
公开(公告)号:CN111581970A
公开(公告)日:2020-08-25
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/04
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111563379A
公开(公告)日:2020-08-21
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN111143560A
公开(公告)日:2020-05-12
申请号:CN201911366859.3
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN114970456B
公开(公告)日:2024-09-24
申请号:CN202210582102.3
申请日:2022-05-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明提出一种端到端的大规模中文词向量压缩方法,包括:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,其中编码书为压缩编码矩阵。上述方案利用中文词性保留了语义信息,属于同一词性的压缩编码共用同一本码书,实现相同词性间的语义信息共享,保持模型语义分析性能的同时进一步缩减了大规模词表的压缩编码,提高模型的压缩率,实现了对大规模中文词向量模型的有效压缩。本发明还提出了对应的中文词向量压缩系统和存储介质。
-
公开(公告)号:CN117251568A
公开(公告)日:2023-12-19
申请号:CN202311096153.6
申请日:2023-08-29
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/284 , G06F40/216 , G06F40/211 , G06F16/951 , G06F18/241 , G06F18/214 , G06F18/10 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明提出了一种基于时序句子特征的社交文本情感分类方法及装置,包括:响应于获取社交文本数据;利用训练的基础分类器模型对获取的所述社交文本数据进行类别判断;根据判断的结果通过时间窗口对获取的所述社交文本的上下游关联句子进行截取,将获得的所述截取后的句子进行句向量的合成,使用tf‑dif平均求全转化为句向量;将所述句向量按照时序顺序输入Bi‑Lstm‑attention模型,得到目标文本最终的情感标签。在对文本进行情感分析时不仅纳入了当前文本,也对文本的前后句子综合的建模与计算,开创性的使用句向量作为模型输入向量,结合Bi‑Lst‑attention模型弥补了之前情感分析方法中对时序文本处理不足的问题,在社交app、社交论坛等情感极性分析、情感观点判断中有较好的使用前景。
-
公开(公告)号:CN117194723A
公开(公告)日:2023-12-08
申请号:CN202311065212.3
申请日:2023-08-23
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/901 , G06F16/9032 , G06F40/289 , G06F40/253 , G06F40/205 , G06F18/25 , G06N3/045 , G06N3/0455
Abstract: 本发明公开了一种基于图数据库的关系增强型检索方法、装置及可读介质,通过获取自然语言问句并进行分词处理,得到词语序列,并采用预训练语言模型生成问句中词语的词向量特征、表名的词向量特征和列名的词向量特征;基于表名的词向量特征和列名的词向量特征构建图数据库,根据问句中词语的词向量特征和图数据库采用自注意力机制生成深度关系融合特征;将问句中词语的词向量特征、表名的词向量特征、列名的词向量特征和深度关系融合特征拼接得到联合特征向量,将联合特征向量输入经训练的Text2AQL模型,得到语法树,根据语法树采用抽象语法描述语言规范映射得到AQL查询语句,能够降低用户与图数据库的交互难度,提升用户的体验感。
-
公开(公告)号:CN116049387A
公开(公告)日:2023-05-02
申请号:CN202111257904.9
申请日:2021-10-27
Applicant: 广州市刑事科学技术研究所 , 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/216 , G06F40/211 , G06F18/241 , G06N3/042 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出了一种基于图卷积的短文本分类方法、装置、设备及存储介质,该方法包括:对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于上述结果构建多特征融合图的矩阵;使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;构建位置嵌入向量,后与单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,进行分类。本发明提出了融合词性、依存性、文档信息的文本多特征图表示方法,提升分类的准确率,克服了背景技术中的缺陷。
-
公开(公告)号:CN111143560B
公开(公告)日:2022-07-01
申请号:CN201911366859.3
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN111026835B
公开(公告)日:2022-06-10
申请号:CN201911365829.0
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/31 , G06F16/903 , G06F16/335 , G06F16/35
Abstract: 本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。
-
公开(公告)号:CN117194980A
公开(公告)日:2023-12-08
申请号:CN202311117065.X
申请日:2023-08-31
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F18/214 , G06F18/213 , G06F16/35 , G06F18/241 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明提出了一种基于文本标签预测的聊天话题识别方法及系统,该方法包括如下步骤:响应于获取所需处理的聊天数据信息并进行预处理;利用已训练的深度学习模型对预处理后的所述聊天数据信息进行处理,包括句子编码和序列标注;通过所述深度学习模型从所述聊天数据信息中识别出所需的特定内容并进行进一步处理。通过引入Sentence Bert对聊天发言进行语义特征提取,以句子作为语义单元输入到模型中,极大扩充了特征标注网络的长度限制;利用特征标注的方法,分别标注网络诈骗中常出现的行为,即使话术有更新,但真正关键的诱导行为不会有较大变化;通过改造卷积神经网络模型,使得模型能够进行序列标注任务,并保留了卷积神经网络较高的推理性能。
-
-
-
-
-
-
-
-
-