-
公开(公告)号:CN112149739B
公开(公告)日:2022-09-09
申请号:CN202011019291.0
申请日:2020-09-25
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种特殊服饰检测方法、终端设备及存储介质,该方法中包括:采集包含特殊服饰的图片组成训练集;通过训练集对全卷积神经网络模型和卷积神经网络分类模型进行分别训练;获取待检测图片;根据训练后的全卷积神经网络模型对待检测图片中的特殊服饰所在区域进行初步定位;根据初步定位的特殊服饰所在区域从待检测图片中截取候选区域;通过训练后的卷积神经网络分类模型对候选区域对应的图片进行分类,得到待检测图片对应的特殊服饰的类型。本发明使用最新的人工智能技术,在不降低或极小降低速度的前提下充分提高了特殊服装的检测准确率。
-
公开(公告)号:CN112214600B
公开(公告)日:2022-06-10
申请号:CN202011131344.8
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN111078887B
公开(公告)日:2022-04-29
申请号:CN201911326228.9
申请日:2019-12-20
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本申请实施例公开了文本分类方法和装置。该方法的一具体实施方式包括:获取待分类文本;对待分类文本进行分词,得到词语列表;对待分类本文中的文字进行声调划分,得到声调组合列表;确定词语列表中的每个词语的词向量,以及确定声调组合列表中的每个声调组合的声调向量;将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征待分类文本的类别的标签。该实施方式实现了将词向量和声调向量相结合,从词和声调两个维度分别提取文本的语义和语调特征,使用这些特征可以有效地改善字/词级特征存在的不足,提高文本分类的准确性。
-
公开(公告)号:CN111563379A
公开(公告)日:2020-08-21
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN111143560A
公开(公告)日:2020-05-12
申请号:CN201911366859.3
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN111563379B
公开(公告)日:2022-12-02
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN112214600A
公开(公告)日:2021-01-12
申请号:CN202011131344.8
申请日:2020-10-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F40/205 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。
-
公开(公告)号:CN111064745A
公开(公告)日:2020-04-24
申请号:CN201911398979.1
申请日:2019-12-30
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L29/06
Abstract: 本申请公开了一种基于异常行为探测的自适应反爬方法和系统,该方法具体包括:S1,对用户的IP地址、访问频率、访问时间和访问历史分别进行异常判断;S2,通过异常判断对用户进行风险等级分类,再通过问题提问、滑块验证、验证码验证对低风险的用户进行验证检测,通过细粒度风险检测对高风险的用户进行检测;S3,对验证检测和风险检测多次异常的用户进行反制操作。该方法通过用户异常行为自适应探测机制实现反爬系统的快速更新,提高对网络爬虫识别的准确性,保障正常用户的访问行为。
-
公开(公告)号:CN109815485A
公开(公告)日:2019-05-28
申请号:CN201811583268.7
申请日:2018-12-24
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明提供了一种微博短文本情感极性识别的方法、装置及存储介质。该方法包括:抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算每一条微博T的先验极性特征值SenScore(t);使用深度卷积神经网络生成微博T的固定长度向量y′;基于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。本发明解决了微博向量表示维数爆炸和数据稀疏的问题,组合了不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。
-
公开(公告)号:CN112711943B
公开(公告)日:2023-11-24
申请号:CN202011497407.1
申请日:2020-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/279 , G06F40/53 , G06F40/58 , G06F16/33 , G06N7/01
Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。
-
-
-
-
-
-
-
-
-