-
公开(公告)号:CN111143553B
公开(公告)日:2023-04-07
申请号:CN201911244895.2
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/35 , G06F18/2415 , G06N3/045 , G06N3/09 , G06N3/047
Abstract: 本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统,侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别,并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流,识别出文本中隐含的特定信息。
-
公开(公告)号:CN115034286A
公开(公告)日:2022-09-09
申请号:CN202210435266.3
申请日:2022-04-24
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于自适应损失函数的异常用户识别方法和装置,其中,该方法包括:获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;进行数据预处理得到训练数据集;基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。本发明解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
-
公开(公告)号:CN110674390B
公开(公告)日:2022-05-20
申请号:CN201910747703.3
申请日:2019-08-14
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明公开了一种基于置信度的群体发现方法及装置,所述方法包括:步骤1,设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络;步骤2,基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度;步骤3,根据所述候选用户的置信度,与预先设置的置信度阈值进行比较,发现新种子用户和新候选用户;步骤4,获取新种子用户,重复执行步骤1‑4直到达到预先设置的迭代次数。
-
公开(公告)号:CN113132383A
公开(公告)日:2021-07-16
申请号:CN202110421317.2
申请日:2021-04-19
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及大数据技术领域。本发明公开了一种网络数据采集系统,该系统包括服务器,服务器包括:任务下发模块,用于创建用户信息获取任务,将用户信息获取任务分配至不同的任务池,计算任务池优先级,根据任务下发规则,得到并传输具有优先级参数的用户信息获取任务;数据解析模块,与任务下发模块数据连接,用于获取来自中间代理服务端的用户信息流量数据,数据解析模块构建报文解析神经网络模型,将待解析报文信息输入训练后报文解析神经网络模型,判断待解析报文信息中是否包括指定用户信息并提取。通过设置任务优先级,优先处理重要的任务,提高任务处理效率。本公开实施例还公开了一种网络数据采集方法。
-
公开(公告)号:CN112836493A
公开(公告)日:2021-05-25
申请号:CN202011404000.X
申请日:2020-12-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/226 , G06F40/284 , G06F16/33
Abstract: 本发明公开了一种转写文本校对方法及存储介质,包括,基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。本发明方法基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和语义的合理性。
-
公开(公告)号:CN112632597A
公开(公告)日:2021-04-09
申请号:CN202011420230.5
申请日:2020-12-08
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种数据脱敏方法、装置可读存储介质,其中方法包括:根据获取的用户提交的数据文件通过预先训练的标注模型对所述数据文件中的敏感数据进行标注,以获得标注文件;利用预设评测规则对与所述标注文件的文件类型相匹配的脱敏算法进行评测;根据用户从评测结果中选取的脱敏算法完成对所述标注文件的脱敏。本发明利用预设评测规则对与标注文件的文件类型相匹配的脱敏算法进行评测;根据用户从评测结果中选取的脱敏算法完成对标注文件的脱敏,由此可以通过规则评测和用户选择确定对应的脱敏算法,具有广泛的适用性。
-
公开(公告)号:CN112085614A
公开(公告)日:2020-12-15
申请号:CN202010778007.1
申请日:2020-08-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q50/00 , G06F16/9536
Abstract: 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,主要步骤为:1)预处理用户在社交网络上产生的时空行为数据,生成用户时空行为序列;2)基于时空行为序列数据定义并计算社交网络间任意两用户的相似度;3)构建以社交网络用户为节点的二部图,相同社交网络用户节点间无边,不同社交网络用户节点间边的权重等于用户相似度;4)计算二部图的最大权匹配;5)基于最大权匹配结果生成虚拟身份对齐结果。本发明能够为全方位分析用户在社交网络中扮演的角色、准确估计用户真实属性提供重要理论基础与技术支撑,所需要数据在现实社交网络中易于获取,计算过程易于通过分布式框架进行,可以在大规模复杂网络中快速做到虚拟用户身份对齐。
-
公开(公告)号:CN109815789A
公开(公告)日:2019-05-28
申请号:CN201811514183.3
申请日:2018-12-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
Abstract: 本发明涉及人脸检测技术领域,具体涉及一种在CPU上实时多尺度人脸检测方法与系统及相关设备,目的在于降低人脸检测的硬件成本,提高人脸检测的速度与准确度。本发明的人脸检测系统包括:特征提取模块、多尺度检测模块和非极大值抑制模块。其中,特征提取模块配置为:从待检测图像中提取关键特征,得到多尺度的待检测特征图;多尺度检测模块配置为:根据多尺度的待检测特征图预测人脸得分和相应的位置;非极大值抑制模块配置为:根据人脸得分进行非极大值抑制,从而得到检测结果。本发明降低了人脸检测的硬件成本,提高了多尺度人脸检测的速度与准确度,能在CPU上实现准确率较高的多尺度人脸检测功能,继而可以应用在手机等平台上。
-
公开(公告)号:CN109190750A
公开(公告)日:2019-01-11
申请号:CN201810737975.0
申请日:2018-07-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
Abstract: 本发明涉及深度学习技术领域,具体提供了一种基于对抗生成网络的小样本生成方法及装置,旨在解决如何在少量样本数据的情况下利用生成对抗网络生成样本数据的技术问题。为此目的,本发明提供的基于对抗生成网络的小样本生成方法能够基于对抗生成网络并根据随机噪声和标签信息,生成小样本类型对应的样本。在此过程中,本发明采用迁移学习和批量训练的方法对对抗生成网络进行网络训练,使生成对抗网络可以有效迁移应用于少量样本的对抗生成网络样本生成任务中。
-
公开(公告)号:CN119600625A
公开(公告)日:2025-03-11
申请号:CN202510143447.2
申请日:2025-02-10
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及自然语言处理技术领域,提供一种变体词识别方法及装置,所述方法包括:对待识别文本进行分词,得到至少一个文本分词;对各文本分词进行文本图像生成,得到各文本分词对应的分词图像;基于各文本分词的编码特征,以及对应分词图像的编码特征,得到各文本分词的变体词识别结果。本发明结合各文本分词的编码特征以及对应分词图像的编码特征,可以融合文本语义与视觉细节信息,将文本模态的文本分词和图像模态的分词图像对齐到同一语义空间,更全面地理解和识别变体词,有效提升了变体词识别的准确率。
-
-
-
-
-
-
-
-
-