一种网页信息分类方法、装置及存储介质

    公开(公告)号:CN119003920A

    公开(公告)日:2024-11-22

    申请号:CN202411481452.6

    申请日:2024-10-23

    Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。

    一种基于大数据的存储计算平台
    12.
    发明公开

    公开(公告)号:CN117453677A

    公开(公告)日:2024-01-26

    申请号:CN202311607734.1

    申请日:2023-11-27

    Abstract: 本申请揭示了一种基于大数据的存储计算平台,包括数据源管理层、数据资源池、数据处理层以及数据服务层。数据管理层负责接入和采集数据,数据资源池进行数据感知分类,数据处理层将接入的数据分类为结构化、非结构化和半结构化,并进行离线和实时数据处理。实时数据处理使用Flink计算引擎,数据处理层包括数据源组件、数据ETL组件和数据输出组件,数据源组件采集Kafka消息队列数据,数据ELT组件使用可自定义的FlinkSQL,数据输出组件以Hbase为数据仓库。数据处理层还包括数据检测单元,用于异常检测,包括数据加载模块、数据时间序列化模块和神经网络模块,神经网络模块配置有目标卷积神经网络模型,该模型中包含L2正则化项和Dropout项,这两项位于同一层或不同层。

    一种改进矩阵分解和谱聚类的协同过滤算法

    公开(公告)号:CN113722587A

    公开(公告)日:2021-11-30

    申请号:CN202110921385.5

    申请日:2021-08-11

    Abstract: 本发明公开了一种改进矩阵分解和谱聚类的协同过滤算法。该算法首先通过抑制物品流行度和用户活跃度优化的相似度计算融合入最小二乘法(ALS),以减少矩阵分解时因子信息的丢失,然后结合流行学习的谱聚类算法弥补ALS算法后期的协同过滤阶段产生大计算量问题,同时获得全局最优解以提高聚类所得目标用户最近邻居的准确率,进而提高协同过滤推荐精度,最后利用Movielens数据集进行实验。实验结果表明,改进的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高准确率,拥有更优的性能。

Patent Agency Ranking