-
公开(公告)号:CN112836493B
公开(公告)日:2023-03-14
申请号:CN202011404000.X
申请日:2020-12-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/226 , G06F40/284 , G06F16/33
Abstract: 本发明公开了一种转写文本校对方法及存储介质,包括,基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。本发明方法基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和语义的合理性。
-
公开(公告)号:CN115527140A
公开(公告)日:2022-12-27
申请号:CN202210786900.8
申请日:2022-07-04
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
Abstract: 本发明提供一种敏感内容检测方法、装置、电子设备和存储介质,涉及内容安全技术领域,所述方法包括:获取待检测视频;将待检测视频输入至视觉元素分析模型,得到视觉元素分析模型输出的视觉元素结果和视觉特征;将待检测视频输入至听觉元素分析模型,得到听觉元素分析模型输出的听觉元素结果和听觉特征;将视觉特征和听觉特征输入至事件检测模型,输出用于表征是否包含敏感内容的事件检测结果;将视觉元素结果和听觉元素结果与敏感内容规则库匹配,输出敏感事件类型,并结合事件检测结果和敏感事件类型,确定敏感内容检测结果。本发明可实现对视频敏感内容的全面检测,提升检测灵活度和准确度。
-
公开(公告)号:CN111159990B
公开(公告)日:2022-09-30
申请号:CN201911244936.8
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31
Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
-
公开(公告)号:CN114003803A
公开(公告)日:2022-02-01
申请号:CN202110944831.4
申请日:2021-08-17
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06F16/9537 , G06Q50/00
Abstract: 本发明提出一种社交平台上特定地域的媒体账号发现方法及系统。在解决社交平台上特定地区媒体账号发现任务时,发明人发现已有方法难以快速地获取高质量的种子媒体账号信息,因此设计了一套针对种子媒体账号快速标注的方法,包括候选账号的确定与账号分类。发明人发现已有方法的特征设计存在特征较弱、无法体现媒体账号特性、难以大规模实施等问题,因此设计了针对媒体账号特性的特征抽取方法。该方法速度快、抽取的特征强。发明人发现已有方法难以高效、高质量地从种子账号扩充到更多的媒体账号。因此在解决了种子账号标注与特征抽取方法的基础上,设计了两种互为补充的扩充方法以获取高质量、高数量的媒体账号。
-
公开(公告)号:CN113076882A
公开(公告)日:2021-07-06
申请号:CN202110375641.5
申请日:2021-04-03
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于深度学习的特定标志检测方法,具体包括:输入一段待检测视频;对所述待检测视频进行关键帧抽取,得到关键帧图像;对所述关键图像进行特定标志检测;根据特定标志检测结果对检测网络进行优化。通过本发明可以达到适用范围广、准确率高以及检测速度快的效果。
-
公开(公告)号:CN112185424A
公开(公告)日:2021-01-05
申请号:CN202011046908.8
申请日:2020-09-29
Applicant: 国家计算机网络与信息安全管理中心 , 天津市国瑞数码安全系统股份有限公司
Abstract: 本发明提出一种语音文件裁剪还原方法、装置、设备和存储介质,设置最大静默时间和设置最小静默值;获取原始语音文件;获取原始语音文件中音频能量值低于最小静默值的无效语音片段;判断无效语音片段时长是否大于最大静默时间;对时长大于最大静默时间的无效语音片段的起点和终点进行裁剪;剔除裁剪得到无效语音片段,获得多段有效语音片段;顺序拼接多段有效语音片段,获得还原语音文件;识别语音文件中的静音部分,在语音裁剪时,可以从静音部分裁剪,保证语音片段的完整性,避免出现断词的现象,提高语音分析结果的正确率。
-
公开(公告)号:CN112181613A
公开(公告)日:2021-01-05
申请号:CN202010943286.2
申请日:2020-09-09
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种异构资源分布式计算平台批量任务调度方法及存储介质,本发明在由几个计算中心组成的异构资源分布式计算集群中,将每个计算中心中的异构资源进行整合与分组,针对分布式计算平台中常见任务的需求,将这些资源合理地分配到预设的具有相应资源偏好的任务队列中。当有一批新任务提交时,根据用户提交的每个任务的相应特征以及各个中心的任务队列当前状态,分析全局最优解,为每个任务选择合适的队列。从而高效利用跨中心多集群中的异构资源,合理进行批量任务调度,解决现有技术中任务调度性能低、任务等待时间长的问题。
-
公开(公告)号:CN111143508A
公开(公告)日:2020-05-12
申请号:CN201911244928.3
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/33 , G06F40/30 , G06F40/289 , G06K9/62
Abstract: 本发明提出了一种基于通信类短文本的事件检测与跟踪方法,包括:提取与某事件对应的样本集合中各通信类短文本的语义特征、关键要素,及该样本集合的传播网络;根据该语义特征、该关键要素和该传播网络,分别获得任意两个该通信类短文本之间的语义距离、要素距离和用户距离;以该语义距离、该要素距离和该用户距离,获得任意两个该通信类短文本之间的度量距离;对所有该度量距离进行聚类,获得该事件的事件检测结果;提取该事件检测结果的特征属性以跟踪该事件。还提出一种基于通信类短文本的事件检测与跟踪系统,以及一种进行基于通信类短文本的事件检测与跟踪的数据处理装置。
-
公开(公告)号:CN110825998A
公开(公告)日:2020-02-21
申请号:CN201910733928.3
申请日:2019-08-09
Applicant: 国家计算机网络与信息安全管理中心 , 哈尔滨工业大学软件工程股份有限公司
IPC: G06F16/958 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种网站识别方法及可读存储介质,该方法包括如下步骤:提取网站样本数据,并对所述网站样本数据进行处理构建网页文本卷积神经网络CNN特征;提取网页特征,根据所述网页特征和所述网页文本CNN特征进行特征融合获得网站融合特征;根据所述网站融合特征进行模型训练获得识别模型,根据所述识别模型对待识别的网站进行识别。本发明方法通过使用网页文本特征构建的分类模型比较构建多特征融合分类模型,分类精度有大幅度提高。
-
公开(公告)号:CN110704611A
公开(公告)日:2020-01-17
申请号:CN201910730306.5
申请日:2019-08-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/216 , G06F40/242 , G06F40/279
Abstract: 本发明公开了一种基于特征解交织的非法文本识别方法及装置,所述方法包括:步骤1,对待识别文本进行去变体操作,去除所述待识别文本中的特殊字符;步骤2,根据预先设置的文本特征词库和乱序特征字库,判断所述待识别文本是否为乱序文本,如果判断为是,则对所述待识别文本进行解交织处理,消除变体,否则,直接执行步骤3;步骤3,利用预先训练的分类器组对解变体后的待识别文本进行分类,输出是否为非法文本预测结果。
-
-
-
-
-
-
-
-
-