-
公开(公告)号:CN117556363B
公开(公告)日:2024-04-09
申请号:CN202410038183.X
申请日:2024-01-11
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/2433 , G06F40/289 , G06F40/216
Abstract: 本发明涉及数据质量技术领域,具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤:S100:分别获取来自不同参与方的文本类数据的数据集;S200:识别并提取出不同参与方的数据集中具有交集的部分,作为识别数据集,分别对不同参与方的识别数据集进行预处理后,将识别数据集中的各项文本数据均转换为特征向量300:将不同参与方的识别数据集中的特征向量进行比对,各个参与方的识别数据中文本数据不一致的部分,作为异常数据,并对异常数据进行定位;S400:分别识别异常数据在其所述识别数据集中的数据归属中的数据属性,根据数据属性选择检测方式,检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。
-
公开(公告)号:CN117315379A
公开(公告)日:2023-12-29
申请号:CN202311612473.2
申请日:2023-11-29
Applicant: 中电科大数据研究院有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/778
Abstract: 本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。
-
公开(公告)号:CN115757573B
公开(公告)日:2023-11-14
申请号:CN202211384184.7
申请日:2022-11-07
Applicant: 中电科大数据研究院有限公司
Abstract: 本申请公开了一种图谱数据的处理方法,包括:获取多源异构数据,对多源异构数据的类型进行判断;对多源异构数据中的结构化数据,根据预设的关联规则,对结构化数据中的字段直接进行关联,形成关联关系;对多源异构数据中的非结构化数据,判断其是否有元数据;若有元数据,则提取元数据,并使用元数据与其它数据集进行关联,形成关联关系;若没有元数据,则为非结构化数据配置元数据,并使用配置的元数据与其它数据集进行关联,形成关联关系;对关联关系的属性进行定义,并根据定义后的关联关系对多源异构数据进行结构化;以定义后的关联关系为连接,生成新的关系型数据,并将关系型数据导入图数据库中。
-
公开(公告)号:CN116150405B
公开(公告)日:2023-06-27
申请号:CN202310416643.3
申请日:2023-04-19
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
Abstract: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN117272123B
公开(公告)日:2024-02-27
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117556363A
公开(公告)日:2024-02-13
申请号:CN202410038183.X
申请日:2024-01-11
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/2433 , G06F40/289 , G06F40/216
Abstract: 本发明涉及数据质量技术领域,具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤:S100:分别获取来自不同参与方的文本类数据的数据集;S200:识别并提取出不同参与方的数据集中具有交集的部分,作为识别数据集,分别对不同参与方的识别数据集进行预处理后,将识别数据集中的各项文本数据均转换为特征向量300:将不同参与方的识别数据集中的特征向量进行比对,各个参与方的识别数据中文本数据不一致的部分,作为异常数据,并对异常数据进行定位;S400:分别识别异常数据在其所述识别数据集中的数据归属中的数据属性,根据数据属性选择检测方式,检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。
-
公开(公告)号:CN116936124B
公开(公告)日:2024-01-02
申请号:CN202311199193.3
申请日:2023-09-18
Applicant: 中电科大数据研究院有限公司
Abstract: 本申请公开了一种健康医疗标准体系构建方法、系统及装置,用于对健康医疗标准数据进行有效管理。本申请方法包括:确定标准关键词,并根据标准关键词获取关于健康医疗领域的标准文献数据;将标准文献数据输入向量数据库中进行数据清洗,去除重复和无关数据,得到清洗后的标准文献数据,并将标准文献数据存储在向量数据库中,构建健康医疗标准二维表;将健康医疗标准二维表存储至标准体系数据库中;将所述标准体系数据库中的标准文献数据输入预先构建好的参考模型中进行定位标记,得到标准体系模型,所述参考模型为三维立体模型,且所述(56)对比文件汤学军;董方杰;张黎黎;武琼;王才有;孟群.我国医疗健康信息标准体系建设实践与思考.中国卫生信息管理杂志.2016,(01),第31-36页.翟运开;张瑞霞;路薇;卢耀恩;赵杰.基于三维结构的精准医疗示范应用标准体系构建.中国卫生资源.2020,(01),第33-37页.
-
公开(公告)号:CN117272123A
公开(公告)日:2023-12-22
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN116028637A
公开(公告)日:2023-04-28
申请号:CN202211559724.0
申请日:2022-12-06
Applicant: 中电科大数据研究院有限公司
Abstract: 本公开的实施例提供一种图谱构建方法,具体实现方案为:响应于获取的数据源为非结构化数据,提取数据源的元数据;将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;基于对应元数据的数据对象和对象关系,生成第一知识图谱。通过本实施方式,提高了非结构化数据构建图谱的效率。
-
公开(公告)号:CN115757573A
公开(公告)日:2023-03-07
申请号:CN202211384184.7
申请日:2022-11-07
Applicant: 中电科大数据研究院有限公司
Abstract: 本申请公开了一种图谱数据的处理方法,包括:获取多源异构数据,对多源异构数据的类型进行判断;对多源异构数据中的结构化数据,根据预设的关联规则,对结构化数据中的字段直接进行关联,形成关联关系;对多源异构数据中的非结构化数据,判断其是否有元数据;若有元数据,则提取元数据,并使用元数据与其它数据集进行关联,形成关联关系;若没有元数据,则为非结构化数据配置元数据,并使用配置的元数据与其它数据集进行关联,形成关联关系;对关联关系的属性进行定义,并根据定义后的关联关系对多源异构数据进行结构化;以定义后的关联关系为连接,生成新的关系型数据,并将关系型数据导入图数据库中。
-
-
-
-
-
-
-
-
-