一种网络语境的文本识别方法、装置及存储介质

    公开(公告)号:CN111581970A

    公开(公告)日:2020-08-25

    申请号:CN202010396183.9

    申请日:2020-05-12

    Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。

    基于中文词向量模型的文本识别方法、装置及存储介质

    公开(公告)号:CN111563379A

    公开(公告)日:2020-08-21

    申请号:CN202010396412.7

    申请日:2020-05-12

    Abstract: 本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。

    一种短文本分类方法、终端设备及存储介质

    公开(公告)号:CN111143560A

    公开(公告)日:2020-05-12

    申请号:CN201911366859.3

    申请日:2019-12-26

    Abstract: 本发明涉及一种短文本分类方法、终端设备及存储介质,该方法中包括:S1:采集多个文本数据并进行特征提取后组成训练集;S2:分别构建基于卷积神经网络和循环神经网络的多个分类模型,计算每个分类模型对训练集中各样本的输出概率;S3:构建三个模型集;S4:根据KS值筛选三个模型集中的两个合并为融合模型库I;S5:设定融合模型库I的样本预测值计算公式;S6:设定损失函数loss;S7:通过训练集对融合模型库I进行迭代训练,通过调整权重参数w1和w2,使得损失函数loss的值最小;S8:通过训练后的融合模型库I对待分类文本数据进行分类。本发明针对短文本数据稀疏、噪声大等问题,通过模型融合策略,有效提高模型应对新数据领域的适应能力。

    一种文本预处理方法、装置及存储介质

    公开(公告)号:CN111090992A

    公开(公告)日:2020-05-01

    申请号:CN201911289718.6

    申请日:2019-12-13

    Abstract: 本发明公开了一种文本预处理方法和装置,通过构造特征信息表,通过特征信息表对用户自定义分词字典进行更新,通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密;输入文本数据,通过特征信息表对文本数据进行匹配,保留文本数据在特征信息表中出现的特征信息,对文本数据中的非法序列信息进行删除得到新的字符串;以及对加密后的用户自定义分词字典进行解密和加载,并通过用户自定义分词字典对新的字符串进行分词。通过特征信息表可以自动更新用户自定义分词字典特征信息词频,减化人工繁琐的配置过程。对用户自定义词典进行加密,修改Jieba中字典读取加载方式,实现对加密用户自定义分词字典的读取,增强用户自定义分词字典的安全性。

    一种可视化家谱布局方法、终端设备及存储介质

    公开(公告)号:CN110609927A

    公开(公告)日:2019-12-24

    申请号:CN201910904081.0

    申请日:2019-09-24

    Abstract: 本发明涉及一种可视化家谱布局方法、终端设备及存储介质,该方法中包括:S1:根据人物节点之间的关系构建配置文件,并对节点进行分层处理,将属于配偶关系和兄弟关系的节点设为同一层;S2:根据每层的人物节点的关系,对人物节点的顺序进行排列,优先使兄弟节点之间相邻,其次使配偶节点之间相邻;S3:按照节点的排列顺序设置每个节点的位置,其中,下一层的孩子节点的位置设置于上一层的孩子节点对应的父母节点位置的中间,并计算每个节点的坐标;S4:根据每个节点的坐标,绘制节点之间的链接线,并将节点之间的关系标注于对应的链接线上。本发明中家庭成员的布局由系统自动完成,只需加载一次配置文件即可完整展示多个家庭的家谱结构。

    一种同源图像检索方法和系统
    28.
    发明公开

    公开(公告)号:CN117112823A

    公开(公告)日:2023-11-24

    申请号:CN202310929283.7

    申请日:2023-07-27

    Abstract: 公开了一种同源图像检索方法和系统,包括将教师网络和学生网络分别分为多个模块,将浅层特征提取模块和深层特征提取模块分别进行损失的约束和知识的蒸馏;在浅层特征上将所述教师网络训练输出的伪标签作为所述学生网络在浅层特征学习后输出的标签,计算软分类交叉熵损失;对深层特征的教师网络和学生网络编码输出进行相似度计算,在总损失函数中加上所述教师网络和所述学生网络的硬分类交叉熵损失,完成启发式的网络轻量化训练。本申请通过学生网络对教师网络的启发式学习,并同时考虑标签层面与特征层面的模型表征能力,约束了深浅不同层次的模型特征学习能力,使学生网络能够取得不低于教师网络的图像表征能力,实现了模型的轻量化。

    一种评论文本观点信息处理方法、装置及存储介质

    公开(公告)号:CN111783474B

    公开(公告)日:2023-04-07

    申请号:CN202010684529.5

    申请日:2020-07-16

    Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。

Patent Agency Ranking