一种数据分类分级方法、装置、设备及可读存储介质

    公开(公告)号:CN119004295A

    公开(公告)日:2024-11-22

    申请号:CN202411263926.X

    申请日:2024-09-10

    Abstract: 本申请公开了一种数据分类分级方法、装置、设备及可读存储介质,包括:获取待分类字段对应的行业数据分类分级框架中最顶层级子类包含的各最顶层级分类标签和分别对应的最顶层分类描述;利用大模型根据待分类字段、各最顶层级分类标签和各最顶层分类描述对待分类字段进行分类;获取当前层分类标签对应的各下一层级子类对应的下一层级分类标签的下一层级分类描述;利用大模型根据待分类字段、当前层分类标签、各下一层级分类标签和各下一层级分类描述对待分类字段进行分类;将各层分类标签进行拼接,得到新的当前层分类标签,当不存在下一层级子类,将当前层分类标签确定为数据分类结果并分级得到数据分级结果。本申请提高了分类分级结果的准确性。

    目标信息生成方法、装置、计算机设备及存储介质

    公开(公告)号:CN115082062A

    公开(公告)日:2022-09-20

    申请号:CN202210617690.X

    申请日:2022-06-01

    Inventor: 宓晨希 陈兰兰

    Abstract: 本申请涉及一种目标信息生成方法,该方法包括:获取暗网的交易数据,该交易数据包括用户编号以及与所述用户编号对应的交易信息;对交易数据进行标准化处理,生成用户标准化数据和交易标准化数据;基于交易数据,确定用户编号之间是否存在关联;在存在关联的情况下,基于相关联的用户编号所对应的用户标准化数据和交易标准化数据生成群体目标信息;在不存在关联的情况下,基于不关联的用户编号所对应的用户标准化数据和交易标准化数据生成个体目标信息。通过用户编号之间的关联性确定目标信息的类型,提高了交易数据分析的完整性和有效性。

    非法网站识别方法、装置、电子装置和存储介质

    公开(公告)号:CN114817808A

    公开(公告)日:2022-07-29

    申请号:CN202210457027.8

    申请日:2022-04-28

    Abstract: 本申请涉及一种非法网站识别方法、装置、电子装置和存储介质,其中,该非法网站识别方法包括:获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。通过本申请,解决了现有技术中存在的网站识别效率低、准确率低的问题,实现了在海量网站中精确高效地识别非法网站的效果。

    一种网站聚类方法、装置、设备及存储介质

    公开(公告)号:CN113868495A

    公开(公告)日:2021-12-31

    申请号:CN202110907944.7

    申请日:2021-08-09

    Inventor: 陈兰兰 范渊 黄进

    Abstract: 本申请公开了一种网站聚类方法、装置、设备及存储介质。该方法包括:获取待聚类网页包含的所有属性值;利用自然语言处理的词嵌入技术,按照目标维度将每个所述属性值转换为低维稠密向量;基于所述低维稠密向量得到每个待聚类网站对应的网页向量;计算不同待聚类网页的网页向量之间的相似度,并根据所述相似度对所述待聚类网页进行聚类以得到不同类型的网页簇。基于所有属性值的相似度比较提高了聚类的准确性,并结合自然语言处理和聚类算法来寻找同类网站,可实现批量准确寻找相似网站,将相同模板网站进行快速归类,为侦查人员寻找已知黑灰产网站的同类网站提供更多线索。

Patent Agency Ranking