一种数据分类方法、系统及相关装置

    公开(公告)号:CN119377410B

    公开(公告)日:2025-04-11

    申请号:CN202411960482.5

    申请日:2024-12-30

    Abstract: 本申请公开了一种数据分类方法、系统及相关装置,用于对数据进行快速且准确的分类。本申请方法包括:获取数据来源信息,对数据来源信息进行数据提取,得到目标数据;获取全量主题词库和部门主题词库;基于全量主题词库判断目标数据是否存在主题;若是,则从全量主题词库中提取主题;若否,则通过预设学习模型对目标数据进行分类,得到数据分类结果;当目标数据存在主题时,判断主题是否唯一;若是,则将主题作为数据分类结果;若否,则基于部门主题词库确定目标数据的部门主题;当主题不唯一时,判断主题与部门主题是否重叠;若是,则将主题或部门主题作为数据分类结果;若否,则通过预设学习模型对主题与部门主题进行分类,得到数据分类结果。

    一种数据分类方法、系统及相关装置

    公开(公告)号:CN119377410A

    公开(公告)日:2025-01-28

    申请号:CN202411960482.5

    申请日:2024-12-30

    Abstract: 本申请公开了一种数据分类方法、系统及相关装置,用于对数据进行快速且准确的分类。本申请方法包括:获取数据来源信息,对数据来源信息进行数据提取,得到目标数据;获取全量主题词库和部门主题词库;基于全量主题词库判断目标数据是否存在主题;若是,则从全量主题词库中提取主题;若否,则通过预设学习模型对目标数据进行分类,得到数据分类结果;当目标数据存在主题时,判断主题是否唯一;若是,则将主题作为数据分类结果;若否,则基于部门主题词库确定目标数据的部门主题;当主题不唯一时,判断主题与部门主题是否重叠;若是,则将主题或部门主题作为数据分类结果;若否,则通过预设学习模型对主题与部门主题进行分类,得到数据分类结果。

    一种数据质量评价方法、系统及相关装置

    公开(公告)号:CN119359155A

    公开(公告)日:2025-01-24

    申请号:CN202411897132.9

    申请日:2024-12-23

    Abstract: 本申请公开了一种数据质量评价方法、系统及相关装置。本申请方法包括:基于预先获取的评价需求构建子服务关注度矩阵和数据集关注度矩阵,并根据评价需求确定需求指标;获取评价指标库,并从中提取相应的评价指标;基于评价指标确定构建数据元关注度矩阵;获取数据质量元素并设定约束条件,构建约束条件关注度矩阵;根据需求指标得到第一权重序列;根据约束条件关注度矩阵得到第二权重矩阵;采集目标数据集;获取问题数量,并基于问题数量、关注度矩阵以及规则算法计算得到约束规则评价得分;根据第二权重矩阵和约束规则评价得分计算得到质量元素评价得分;根据第一权重序列和质量元素评价得分计算得到数据集评价得分。

    算法推荐服务的数据管理方法及装置

    公开(公告)号:CN117370673A

    公开(公告)日:2024-01-09

    申请号:CN202311678732.1

    申请日:2023-12-08

    Abstract: 本发明提供一种算法推荐服务的数据管理方法及装置,属于数据处理技术领域,本发明的算法推荐服务的数据管理方法,通过哈希算法将不同的个人基本信息进行加密以实现对个人基本信息的脱敏处理,得到个人信息特征数据,进一步地将个人信息特征数据进行打乱顺序并加密传输至推荐算法应用平台,使用第二区块链来保存索引顺序表并生成目标公钥,可以保证只有推荐算法应用平台能安全地获取索引顺序表以及目标公钥对应的目标私钥来进行数据解密,防止数据在传输过程中被劫持利用,损伤用户利益,降低了数据泄露的风险,保证了数据的安全性。

    一种基于数据沙盒的数据契约式开放方法及相关设备

    公开(公告)号:CN116628682A

    公开(公告)日:2023-08-22

    申请号:CN202310907425.X

    申请日:2023-07-24

    Abstract: 本申请实施例公开了一种基于数据沙盒的数据契约式开放方法及相关设备,可安全的对外开放数据,既保证数据安全,又能充分发挥数据的最大价值。所述数据契约式开放方法应用于沙盒服务端,所述沙盒服务端中包含有边界沙盒和计算沙盒,包括:沙盒服务端根据目标安全契约开启边界沙盒,目标安全契约用于制约边界沙盒和计算沙盒在沙盒服务端中的行为;边界沙盒接收来自于数据使用方提供的初始模型和数据提供方提供的数据样本;计算沙盒依据目标安全契约将数据样本输入初始模型进行训练生成数据分析模型;边界沙盒将数据分析模型上传至数据使用方;沙盒服务端销毁边界沙盒和计算沙盒。

    一种网页信息分类方法、装置及存储介质

    公开(公告)号:CN119003920A

    公开(公告)日:2024-11-22

    申请号:CN202411481452.6

    申请日:2024-10-23

    Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。

    一种基于大数据的存储计算平台
    9.
    发明公开

    公开(公告)号:CN117453677A

    公开(公告)日:2024-01-26

    申请号:CN202311607734.1

    申请日:2023-11-27

    Abstract: 本申请揭示了一种基于大数据的存储计算平台,包括数据源管理层、数据资源池、数据处理层以及数据服务层。数据管理层负责接入和采集数据,数据资源池进行数据感知分类,数据处理层将接入的数据分类为结构化、非结构化和半结构化,并进行离线和实时数据处理。实时数据处理使用Flink计算引擎,数据处理层包括数据源组件、数据ETL组件和数据输出组件,数据源组件采集Kafka消息队列数据,数据ELT组件使用可自定义的FlinkSQL,数据输出组件以Hbase为数据仓库。数据处理层还包括数据检测单元,用于异常检测,包括数据加载模块、数据时间序列化模块和神经网络模块,神经网络模块配置有目标卷积神经网络模型,该模型中包含L2正则化项和Dropout项,这两项位于同一层或不同层。

    一种改进矩阵分解和谱聚类的协同过滤算法

    公开(公告)号:CN113722587A

    公开(公告)日:2021-11-30

    申请号:CN202110921385.5

    申请日:2021-08-11

    Abstract: 本发明公开了一种改进矩阵分解和谱聚类的协同过滤算法。该算法首先通过抑制物品流行度和用户活跃度优化的相似度计算融合入最小二乘法(ALS),以减少矩阵分解时因子信息的丢失,然后结合流行学习的谱聚类算法弥补ALS算法后期的协同过滤阶段产生大计算量问题,同时获得全局最优解以提高聚类所得目标用户最近邻居的准确率,进而提高协同过滤推荐精度,最后利用Movielens数据集进行实验。实验结果表明,改进的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高准确率,拥有更优的性能。

Patent Agency Ranking