-
公开(公告)号:CN116304919A
公开(公告)日:2023-06-23
申请号:CN202310041782.2
申请日:2023-01-11
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F18/2431 , G06F18/214
Abstract: 本发明提出了一种改进多分类样本不均衡的分类模型的方法及其系统,包括:训练步骤,基于获取的训练数据进行数据分析后,根据各个类别的数据量,及预设的数据分组与划分规则进行类别组合与分组划分,进一步利用分层结构分类模型中的组分类模型与各组的子类别分类模型分别进行逐层的分类训练;预测步骤,首先加载所述组分类模型与各组的所述子类别分类模型,然后将预测数据先输入所述组分类模型进行分类预测,以判断各组的分组标签,再根据所述分组标签选择对应的所述子类别分类模型,进行最终的子类别预测。通过改进分类模型的框架结构,来提升分类效果,解决样本不均衡时的多分类问题,提升分类效果与准确性,同时提高模型的鲁棒性与泛化能力。
-
公开(公告)号:CN114330316A
公开(公告)日:2022-04-12
申请号:CN202111483527.0
申请日:2021-12-07
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/274 , G06F40/216 , G06F40/211 , G06F40/289
Abstract: 本发明公开了一种简拼的识别方法及计算机可读存储介质,获取包含简拼字符串的句子;获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N‑Gram模型,分别计算各候选句的概率;将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。本发明可识别得到与首字母简拼最匹配的中文词汇,方便阅读。
-
公开(公告)号:CN116090452A
公开(公告)日:2023-05-09
申请号:CN202211612881.3
申请日:2022-12-15
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/268 , G06F16/35 , G06F18/214 , G06Q50/18 , G06N3/08 , G06N3/044
Abstract: 本发明提出了一种基于自然语言处理的协议签订辅助方法,该方法包括以下步骤:构建协议文档库,对协议文档库中的每个文档进行标注,获得待处理数据,对待处理数据进行训练,得到实体识别模型;获取用户协议文档,通过自然语言处理技术提取用户协议文档的重点内容,以及基于实体识别模型提取用户协议文档中的违规项和风险项;对违规项进行存储记录,对风险项进行大数据分析,向用户推送存储记录和大数据分析的结果。可以提高网民对用户协议含义的理解以及风险的警惕,避免了用户利益受到侵害。不仅能够对线上的用户协议进行分析,还可以提供线下服务,如拍照上传识别分析纸质协议、分析合同等需要签订且负有法律效应的文件。
-
公开(公告)号:CN115878806A
公开(公告)日:2023-03-31
申请号:CN202310003772.X
申请日:2023-01-03
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明提出了一种融合多元信息的黑灰产短信识别方法,包括:对获取的原始文本进行AI文本还原生成正常文本,所述正常文本经特征提取后,将提取获得的特征向量输入预先设置的AI文本分类模型中,完成正常特征分类任务;对获取的原始文本进行多元特征提取,并进一步进行多元特征融合,完成多模态分类任务;将获取的正常文本的特征与多元信息特征这两个模态下的特征进行多模态融合,完成多元特征分类任务;进行加权loss更新得到最终的多任务学习模型。通过融合多元特征信息以提高AI建模技术的模型识别效果,减小误差的累积传递;同时结合多模态融合与多任务学习增强模型效果;再通过数据增强方法提升模型鲁棒性与泛化能力,并解决传统做法中的痛点问题。
-
公开(公告)号:CN115221880A
公开(公告)日:2022-10-21
申请号:CN202210855621.2
申请日:2022-07-20
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/295 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种命名实体识别方法及终端,对获取的文本进行分词,得到文字序列,其包括字符文字序列;基于所述字符文字序列使用特征增强算法进行特征增强,并基于增强后的多元特征获取特征向量;使用多头注意力机制对特征向量进行时序编码,输出得到时序特征;对时序特征进行预测,得到最优标注序列,并根据其得到文本对应的命名实体识别结果,能够融合多元特征,利用多元特征有利于模型学习到更多的语义信息,且能够有效地获取字符序列之间的注意力,可在计算过程中将序列中任意两个字符直接联系起来,缩短距离依赖,有效利用特征完整表达整个文本的特征以及上下文特征,且字符之间能够相互关联,从而有效提高了命名实体识别的准确率。
-
公开(公告)号:CN115221322A
公开(公告)日:2022-10-21
申请号:CN202210855619.5
申请日:2022-07-20
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开一种基于联邦学习的文本情感分类方法及终端,通过建立全局模型和多组客户端模型,形成联邦学习的情感分类模型框架,不仅可以避免涉密训练数据外传以及隐私数据交叉外泄等安全问题,而且能节省大数据传输过程所消耗的资源,还具有较高的时效性;同时,分布式模型框架可以使AI模型能学习到来自不同客户的大量样本,极大提升模型泛化能力和效果,即基于联邦学习的情感分类模型框架,让模型在客户本地训练,使得数据只会存在于客户本地,而且又能获得一个强大的AI分类模型的效果。
-
公开(公告)号:CN114297400A
公开(公告)日:2022-04-08
申请号:CN202111485360.1
申请日:2021-12-07
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开一种五元组实体关系抽取方法,通过将文本语料进行实体关系标注得到标注数据,再将标注数据进行五元组化预处理,得到含有主体、主体类型、关系、客体和客体类形的五元组训练数据集,而后再通过含有五元组的训练数据集对深度学习模型进行训练得到关系抽取模型,从而当需要抽取文本数据内的信息时,能够通过关系抽取模型对文本数据进行抽取并得到对应的五元组数据,可以极大的提高实体关系抽取的召回率,同时也能保证较高的准确率,并且抽取出的数据更加多元化,从而提高文本关系提取的效果。
-
-
-
-
-
-