-
公开(公告)号:CN119003920A
公开(公告)日:2024-11-22
申请号:CN202411481452.6
申请日:2024-10-23
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/958 , G06F16/951 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。
-
公开(公告)号:CN117453677A
公开(公告)日:2024-01-26
申请号:CN202311607734.1
申请日:2023-11-27
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/25 , G06N3/0464 , G06N3/08
Abstract: 本申请揭示了一种基于大数据的存储计算平台,包括数据源管理层、数据资源池、数据处理层以及数据服务层。数据管理层负责接入和采集数据,数据资源池进行数据感知分类,数据处理层将接入的数据分类为结构化、非结构化和半结构化,并进行离线和实时数据处理。实时数据处理使用Flink计算引擎,数据处理层包括数据源组件、数据ETL组件和数据输出组件,数据源组件采集Kafka消息队列数据,数据ELT组件使用可自定义的FlinkSQL,数据输出组件以Hbase为数据仓库。数据处理层还包括数据检测单元,用于异常检测,包括数据加载模块、数据时间序列化模块和神经网络模块,神经网络模块配置有目标卷积神经网络模型,该模型中包含L2正则化项和Dropout项,这两项位于同一层或不同层。
-
公开(公告)号:CN116028637A
公开(公告)日:2023-04-28
申请号:CN202211559724.0
申请日:2022-12-06
Applicant: 中电科大数据研究院有限公司
Abstract: 本公开的实施例提供一种图谱构建方法,具体实现方案为:响应于获取的数据源为非结构化数据,提取数据源的元数据;将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;基于对应元数据的数据对象和对象关系,生成第一知识图谱。通过本实施方式,提高了非结构化数据构建图谱的效率。
-
公开(公告)号:CN113722587A
公开(公告)日:2021-11-30
申请号:CN202110921385.5
申请日:2021-08-11
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/9535 , G06F16/9536 , G06F16/906 , G06F17/16
Abstract: 本发明公开了一种改进矩阵分解和谱聚类的协同过滤算法。该算法首先通过抑制物品流行度和用户活跃度优化的相似度计算融合入最小二乘法(ALS),以减少矩阵分解时因子信息的丢失,然后结合流行学习的谱聚类算法弥补ALS算法后期的协同过滤阶段产生大计算量问题,同时获得全局最优解以提高聚类所得目标用户最近邻居的准确率,进而提高协同过滤推荐精度,最后利用Movielens数据集进行实验。实验结果表明,改进的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高准确率,拥有更优的性能。
-
-
-