融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821B

    公开(公告)日:2023-06-13

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821A

    公开(公告)日:2023-04-28

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    一种社交网络关键节点挖掘的方法、装置及存储介质

    公开(公告)号:CN115827949A

    公开(公告)日:2023-03-21

    申请号:CN202211384169.2

    申请日:2022-11-07

    Abstract: 本申请公开了一种社交网络关键节点挖掘的方法、装置及存储介质,用于提高查找社交网络中关键节点的准确性。本申请方法包括:提取社交网络平台中的用户关系数据和社交网络文本数据,根据用户关系数据构建复杂网络图,再将复杂网络图将用户关系映射为邻接矩阵,将邻接矩阵中的节点输入节点katz中心度分析模型计算出用户节点的katz中心度,将社交网络文本输入预先构建的情感分析模型中,确定博文的情感数据并输出,对情感数据进行统计分析得到博文情绪占比,将节点katz中心度以及情绪占比输入预先构建好的节点重要程度评估模型确定社交网络平台的关键节点。

    基于文本语义映射的跨模态数据检索系统及其检索方法

    公开(公告)号:CN110990597B

    公开(公告)日:2022-11-25

    申请号:CN201911315961.0

    申请日:2019-12-19

    Abstract: 一种基于文本语义映射的跨模态数据检索系统及其检索方法,该检索系统包括数据域、离线域、语义域以及在线域;数据域包括文本数据集和非文本数据集;离线域包括标签提取模块、文本语义提取模块、数据标注模块、和非文本语义模型训练模块;所述语义域包括文本语义空间;在线预包括文本语义提取模块、非文本语义提取模块、查询表达模块、相关度计算模块、和相关度排序模块。本发明将非文本数据语义映射至文本语义空间,有助于提高系统数据标注、模型训练以及检索准确率评估的效率与可操作性,减少了非本文数据语义映射次数,极大地保留了数据的原始语义,能够有效提高数据检索准确率。

    一种多层级用户评论安全审核的模型构建方法

    公开(公告)号:CN111966944A

    公开(公告)日:2020-11-20

    申请号:CN202010825591.1

    申请日:2020-08-17

    Abstract: 本发明提供了一种多层级用户评论安全审核的模型构建方法,包括如下步骤:①构建词库:基于数据采集技术获取用户评论数据集;②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;④输出审核结果。本发明采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法,为用户评论内容的检测提供了新思路;基于敏感因子权重对敏感词库进行层级划分和评论检测,避免了传统敏感词过滤一次性匹配所带来的漏判和误判,有效提升了评论审核的精确率。

    一种基于Resnet-Bert网络模型的跨媒体检索方法

    公开(公告)号:CN111949806A

    公开(公告)日:2020-11-17

    申请号:CN202010767866.0

    申请日:2020-08-03

    Abstract: 本发明提供了一种基于Resnet-Bert网络模型的跨媒体检索方法;采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果。本发明与传统的两种媒体类型互相检索相比,四种媒体类型的相互检索更能够实现较为广泛的市场应用;采用了效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型,模型本身能够得到更高层、更抽象以及更丰富的特征表达;使用的四种模态数据,信息间相互迁移,关联学习加强,实现了更强的知识表示能力;得益于计算机性能的提升,Resnet-Bert网络模型经过复杂的计算,能够实现较好的跨媒体训练效果和跨媒体检索效果。

    一种结合BERT模型的图像描述生成方法

    公开(公告)号:CN110852331A

    公开(公告)日:2020-02-28

    申请号:CN201911025320.1

    申请日:2019-10-25

    Abstract: 本发明提供了一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。本发明通过对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。

Patent Agency Ranking