-
公开(公告)号:CN118656490A
公开(公告)日:2024-09-17
申请号:CN202410629623.9
申请日:2024-05-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/30 , G06N3/0455 , G06N5/04
Abstract: 本发明涉及一种文本分类方法、装置、设备和存储介质,文本分类方法包括:获取待处理文本,待处理文本包含对于目标事件的目标观点;将大模型运用到特定文本分类任务上,在该分类任务的目标立场下对待处理文本进行分类处理,确定目标事件的事件类别,且大模型还是基于少数据量的数据集上训练的,准确率也很高,同时在分类任务的基础上,提出了多任务间的自我校验的可解释优化任务,确定反应目标观点情感倾向的可解释的倾向信息;使用二分类模型对可解释的倾向信息进行语义分析,审核大模型的分类准确性,确定反应目标观点情感倾向的倾向类别;根据倾向类别和事件类别,确定待处理文本的目标类别,有效提高了文本分类的准确性。
-
公开(公告)号:CN117591119B
公开(公告)日:2024-05-31
申请号:CN202311441226.0
申请日:2023-11-01
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及软件检测技术领域,公开了一种海量APK源码特征提取及相似分析方法,首先输入两个APK文件,通过源码解析反编译方法提取到APK包的AndroidManifest文件、本地化语言配置文件,提取到SMALI或JAVA源代码;再通过包名索引、启动类索引、固定目录识别方式,识别APK核心源码目录、第三方包目录、系统资源目录,并生成源码树;再对核心源码目录中的文件进行分析,计算文件HASH,提取源码文件中字符串类声明特征表示作为加权特征;计算拟进行分析的两棵源码树结构的相似度情况,根据源码目录的类型对进行不同程度的相似度加权。本发明降低分析资源投入和时间消耗,提升源码相似分析的准确度,能够实现在大规模APK数据分析场景的高性能分析。
-
公开(公告)号:CN104881458B
公开(公告)日:2019-05-28
申请号:CN201510266108.X
申请日:2015-05-22
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。
-
公开(公告)号:CN116702022A
公开(公告)日:2023-09-05
申请号:CN202310512618.5
申请日:2023-05-08
Applicant: 国家计算机网络与信息安全管理中心
Inventor: 李林 , 李美燕 , 王秀文 , 崔雨涵 , 陈鹏云 , 杨菁林 , 徐丹丹 , 秦韬 , 郭富民 , 刘志丞 , 李娅强 , 曾宣玮 , 张栋 , 王峰 , 李政达 , 李东明 , 秦恺
IPC: G06F18/241 , G06F18/23 , G06Q30/0601
Abstract: 本发明实施例涉及一种商品分类模型训练方法、装置、计算机设备及存储介质,该方法包括:根据特征提取模型提取商品集合中每个商品的第一特征,得到第一特征集合,所述第一特征用于表征所述商品的商品特征和所述商品对应的企业特征;对所述第一特征集合进行聚类处理,得到多个簇,每个所述簇中包含多个所述第一特征;从每个所述簇中提取多个目标第一特征,得到目标第一特征集合;根据所述目标第一特征集合对第一初始模型进行训练,得到训练好的商品分类模型。由此,可以实现通过商品特征和企业特征结合进行分类模型的训练,提高了分类的准确度,且对训练的特征进行了筛选,提高模型训练效率。
-
公开(公告)号:CN104881458A
公开(公告)日:2015-09-02
申请号:CN201510266108.X
申请日:2015-05-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/374 , G06F16/35
Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。
-
公开(公告)号:CN104850647A
公开(公告)日:2015-08-19
申请号:CN201510284124.1
申请日:2015-05-28
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F16/951 , G06Q50/01
Abstract: 本发明公开了一种微博团体的发现方法及装置,其中,该方法包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明实施例为不同种类的信息建立各自独立的特征信息词典,从用户一定时间段内更新的信息中分词,来与特征信息词典中的词语进行比对,进而确定用户的兴趣特征向量,再通过无监督学习方式来确定用户团体信息,通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体,具有更准确的推广意义,传播力度大大提高,解决了现有问题。
-
公开(公告)号:CN118796264A
公开(公告)日:2024-10-18
申请号:CN202410768709.X
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。
-
公开(公告)号:CN116561335A
公开(公告)日:2023-08-08
申请号:CN202310403733.9
申请日:2023-04-14
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F16/901 , G06F16/35 , G06F40/211
Abstract: 本发明实施例涉及一种图谱构建方法、装置、电子设备及存储介质,所述方法包括:从预设的产业数据库中确定与目标产业匹配的产业数据;根据所述产业数据确定产业链图谱中各实体之间的上下位关系;获取所述目标产业的企业信息;根据所述上下位关系及所述企业信息,构建所述目标产业的产业链图谱。由此,可以实现准确确定产业链图谱中各实体之间的上下位关系,避免需要人工大量的查阅产业资料,简化操作流程,提升了产业链图谱生成的便利性,一定程度上解决了人工构建可能不全面的问题。
-
公开(公告)号:CN116561334A
公开(公告)日:2023-08-08
申请号:CN202310403556.4
申请日:2023-04-14
Applicant: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC: G06F16/36 , G06F16/31 , G06N3/0464 , G06F18/22 , G06N3/084
Abstract: 本发明实施例涉及一种关系抽取方法、装置、图谱构建方法及存储介质,所述方法包括:确定预设实体库中各实体之间的关系,所述关系为所述实体库中技术与技术之间的关系,和/或所述实体库中技术与企业之间的关系;根据所述实体库中所述实体之间的关系,建立邻接矩阵;基于所述邻接矩阵,构建与所述实体对应的图卷积网络;利用所述图卷积网络抽取所述实体库中各实体之间的关系。由此,可以实现确定预设实体库中各实体之间的关系,根据实体之间的关系建立邻接矩阵,进而构建与实体对应的图卷积网络,以实现基于图卷积网络简单、便捷地确定各个实体之间的关系,提高效率,提升用户体验。
-
公开(公告)号:CN106131812A
公开(公告)日:2016-11-16
申请号:CN201610759203.8
申请日:2016-08-30
Applicant: 中国人民解放军信息工程大学 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种移动电话网被叫用户号码在线还原系统及其还原方法,根据移动呼叫的技术原理与实现方法,在现有对移动电话网中呼叫控制信息的在线分析与处理的基础上,引入对移动电话网中移动管理信息的在线分析与处理,并在二者间建立交互接口,从而将呼叫控制信息与移动管理信息进行关联,最终获取并还原被叫用户号码。本发明实现移动电话网中被叫用户号码的在线还原,为基于用户号码的防护功能在移动电话网中得以实施,进一步提高了移动电话网安全防护能力,适用于在线获取移动呼叫主被叫用户号码、基于网络数据采集处理的第三方设备与系统。
-
-
-
-
-
-
-
-
-