-
公开(公告)号:CN116150405B
公开(公告)日:2023-06-27
申请号:CN202310416643.3
申请日:2023-04-19
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
Abstract: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN116028821B
公开(公告)日:2023-06-13
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN110163110B
公开(公告)日:2023-06-06
申请号:CN201910329733.2
申请日:2019-04-23
Applicant: 中电科大数据研究院有限公司
IPC: G06V40/10 , G06V10/774 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明提供了一种基于迁移学习和深度特征融合的行人重识别方法,包括以下步骤:预训练‑人体姿态矫正和分割‑特征向量‑深度特征融合‑训练模型‑测试模型‑识别结果。本发明通过利用深度卷积神经网络提取行人全局和局部特征,对两种特征进行深度融合获得最终的行人特征表征,然后在深度卷积神经网络训练过程中,采用迁移学习的方式进而获得效果更好的行人重识别网络模型,最终使得行人重识别网络模型提取的特征具有更强的分辨能力,从而达到提升行人重识别准确率的目的。
-
公开(公告)号:CN116028821A
公开(公告)日:2023-04-28
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN115827949A
公开(公告)日:2023-03-21
申请号:CN202211384169.2
申请日:2022-11-07
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/953 , G06F40/216
Abstract: 本申请公开了一种社交网络关键节点挖掘的方法、装置及存储介质,用于提高查找社交网络中关键节点的准确性。本申请方法包括:提取社交网络平台中的用户关系数据和社交网络文本数据,根据用户关系数据构建复杂网络图,再将复杂网络图将用户关系映射为邻接矩阵,将邻接矩阵中的节点输入节点katz中心度分析模型计算出用户节点的katz中心度,将社交网络文本输入预先构建的情感分析模型中,确定博文的情感数据并输出,对情感数据进行统计分析得到博文情绪占比,将节点katz中心度以及情绪占比输入预先构建好的节点重要程度评估模型确定社交网络平台的关键节点。
-
公开(公告)号:CN115827921A
公开(公告)日:2023-03-21
申请号:CN202211561921.6
申请日:2022-12-06
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/901 , G06F16/9038 , G06F18/25
Abstract: 本公开的实施例提供一种数据融合方法,具体实现方案为:建图模块,用于接收多源异构数据,并对多源异构数据进行处理生成数据对象以及对象关系,将数据对象和对象关系导入图数据库中;插件模块,采用人工智能算法解析多源异构数据,得到解析结果;融合模块,用于将图数据库中的数据对象、对象关系分别与解析结果进行融合,得到融合结果。通过本实施方式,提高了多源异构数据融合的效率。
-
公开(公告)号:CN110990597B
公开(公告)日:2022-11-25
申请号:CN201911315961.0
申请日:2019-12-19
Applicant: 中国电子科技集团公司信息科学研究院 , 中电科大数据研究院有限公司
IPC: G06F16/432
Abstract: 一种基于文本语义映射的跨模态数据检索系统及其检索方法,该检索系统包括数据域、离线域、语义域以及在线域;数据域包括文本数据集和非文本数据集;离线域包括标签提取模块、文本语义提取模块、数据标注模块、和非文本语义模型训练模块;所述语义域包括文本语义空间;在线预包括文本语义提取模块、非文本语义提取模块、查询表达模块、相关度计算模块、和相关度排序模块。本发明将非文本数据语义映射至文本语义空间,有助于提高系统数据标注、模型训练以及检索准确率评估的效率与可操作性,减少了非本文数据语义映射次数,极大地保留了数据的原始语义,能够有效提高数据检索准确率。
-
公开(公告)号:CN111966944A
公开(公告)日:2020-11-20
申请号:CN202010825591.1
申请日:2020-08-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/958 , G06F16/33 , G06F16/35
Abstract: 本发明提供了一种多层级用户评论安全审核的模型构建方法,包括如下步骤:①构建词库:基于数据采集技术获取用户评论数据集;②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;④输出审核结果。本发明采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法,为用户评论内容的检测提供了新思路;基于敏感因子权重对敏感词库进行层级划分和评论检测,避免了传统敏感词过滤一次性匹配所带来的漏判和误判,有效提升了评论审核的精确率。
-
公开(公告)号:CN111949806A
公开(公告)日:2020-11-17
申请号:CN202010767866.0
申请日:2020-08-03
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种基于Resnet-Bert网络模型的跨媒体检索方法;采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果。本发明与传统的两种媒体类型互相检索相比,四种媒体类型的相互检索更能够实现较为广泛的市场应用;采用了效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型,模型本身能够得到更高层、更抽象以及更丰富的特征表达;使用的四种模态数据,信息间相互迁移,关联学习加强,实现了更强的知识表示能力;得益于计算机性能的提升,Resnet-Bert网络模型经过复杂的计算,能够实现较好的跨媒体训练效果和跨媒体检索效果。
-
公开(公告)号:CN110852331A
公开(公告)日:2020-02-28
申请号:CN201911025320.1
申请日:2019-10-25
Applicant: 中电科大数据研究院有限公司
IPC: G06K9/46 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本发明提供了一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。本发明通过对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。
-
-
-
-
-
-
-
-
-