-
公开(公告)号:CN111581970A
公开(公告)日:2020-08-25
申请号:CN202010396183.9
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/126 , G06F40/216 , G06N3/04
Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。
-
公开(公告)号:CN111563379A
公开(公告)日:2020-08-21
申请号:CN202010396412.7
申请日:2020-05-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/289 , G06F40/242 , G06F40/30 , G06F16/35
Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
-
公开(公告)号:CN111143560A
公开(公告)日:2020-05-12
申请号:CN201911366859.3
申请日:2019-12-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。
-
公开(公告)号:CN111090992A
公开(公告)日:2020-05-01
申请号:CN201911289718.6
申请日:2019-12-13
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/242 , G06F40/289 , G06F16/33 , G06F21/60
Abstract: 本发明公开了一种文本预处理方法和装置,通过构造特征信息表,通过特征信息表对用户自定义分词字典进行更新,通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密;输入文本数据,通过特征信息表对文本数据进行匹配,保留文本数据在特征信息表中出现的特征信息,对文本数据中的非法序列信息进行删除得到新的字符串;以及对加密后的用户自定义分词字典进行解密和加载,并通过用户自定义分词字典对新的字符串进行分词。通过特征信息表可以自动更新用户自定义分词字典特征信息词频,减化人工繁琐的配置过程。对用户自定义词典进行加密,修改Jieba中字典读取加载方式,实现对加密用户自定义分词字典的读取,增强用户自定义分词字典的安全性。
-
公开(公告)号:CN110609927A
公开(公告)日:2019-12-24
申请号:CN201910904081.0
申请日:2019-09-24
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/901 , G06F16/904
Abstract: 本发明涉及一种可视化家谱布局方法、终端设备及存储介质,该方法中包括:S1:根据人物节点之间的关系构建配置文件,并对节点进行分层处理,将属于配偶关系和兄弟关系的节点设为同一层;S2:根据每层的人物节点的关系,对人物节点的顺序进行排列,优先使兄弟节点之间相邻,其次使配偶节点之间相邻;S3:按照节点的排列顺序设置每个节点的位置,其中,下一层的孩子节点的位置设置于上一层的孩子节点对应的父母节点位置的中间,并计算每个节点的坐标;S4:根据每个节点的坐标,绘制节点之间的链接线,并将节点之间的关系标注于对应的链接线上。本发明中家庭成员的布局由系统自动完成,只需加载一次配置文件即可完整展示多个家庭的家谱结构。
-
公开(公告)号:CN114882593B
公开(公告)日:2024-12-06
申请号:CN202210551600.1
申请日:2022-05-18
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06V40/20 , G06V10/26 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明给出了一种鲁棒的时空混合步态特征学习方法和系统,包括对于输入的一组步态帧序列,将每一帧的人体分割为易受着装变化影响的部分和不易受着装变化影响的部分,不易受着装变化影响的部分包括头部和小腿部分;对不易受着装变化影响的部分,通过三个不同子网络分别提取步态特征,将提取到的三个步态特征级联,作为最终进行步态识别的步态特征,三个不同子网络包括局部空间特征提取网络、全局空间特征提取网络和连续短时间间隔内的步态动态特征提取网络。每个子网络都刻画了步态特征的不同方面,串联混合可以合成一个更为鲁棒的步态特征,该方法和系统在处理行人着装变化这一步态识别问题时具有显著的增益效果。
-
公开(公告)号:CN117312551A
公开(公告)日:2023-12-29
申请号:CN202310930896.2
申请日:2023-07-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F16/9536 , G06F16/951 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/042 , G06N3/0464 , G06N3/09 , G06Q50/00
Abstract: 本申请提出一种基于图卷积网络的社交文本分类方法,包括步骤:获取社交文本数据,社交文本数据包括用户和用户的文本内容;对每个用户的文本内容进行计算,应用训练好的BERT‑attention模型获得用户文本向量;以用户文本向量为节点,以用户间发送的文本内容的数量为边,构建用户关联图;基于用户关联图进行图卷积运算,获得关联文本向量;基于关联文本向量以及用户文本向量,获得用户的文本内容的分类标签。本发明的方案以BERT、图卷积神经网络为技术基础,不仅关注于人物自身的聊天文本,还从人物的整体社交内容进行信息挖掘与建模,对人物之间的关联进行量化,提高了社交文本分类的准确性。
-
公开(公告)号:CN117112823A
公开(公告)日:2023-11-24
申请号:CN202310929283.7
申请日:2023-07-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/583 , G06F16/55 , G06V10/44 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/042 , G06N3/0455 , G06N3/047 , G06N3/08
Abstract: 公开了一种同源图像检索方法和系统,包括将教师网络和学生网络分别分为多个模块,将浅层特征提取模块和深层特征提取模块分别进行损失的约束和知识的蒸馏;在浅层特征上将所述教师网络训练输出的伪标签作为所述学生网络在浅层特征学习后输出的标签,计算软分类交叉熵损失;对深层特征的教师网络和学生网络编码输出进行相似度计算,在总损失函数中加上所述教师网络和所述学生网络的硬分类交叉熵损失,完成启发式的网络轻量化训练。本申请通过学生网络对教师网络的启发式学习,并同时考虑标签层面与特征层面的模型表征能力,约束了深浅不同层次的模型特征学习能力,使学生网络能够取得不低于教师网络的图像表征能力,实现了模型的轻量化。
-
公开(公告)号:CN112052687B
公开(公告)日:2023-11-21
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06F18/214
-
公开(公告)号:CN111783474B
公开(公告)日:2023-04-07
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
-
-
-
-
-
-
-
-