-
公开(公告)号:CN108073677B
公开(公告)日:2021-12-28
申请号:CN201711063644.5
申请日:2017-11-02
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35
Abstract: 本发明涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本发明只通过文档级的标注信息来推断组成文本的标签,可以很好的应用于组成文本标签难以收集的场景;相对于传统多示例学习方法,本发明引入最少假设,能够更好地拟合实际数据;本发明具有良好的可扩展性。
-
公开(公告)号:CN109948015A
公开(公告)日:2019-06-28
申请号:CN201710880652.2
申请日:2017-09-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/958
Abstract: 本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。
-
公开(公告)号:CN117295060A
公开(公告)日:2023-12-26
申请号:CN202210686184.6
申请日:2022-06-16
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种5G环境下有害加密OTT语音应用风险处置方法及装置,包括:流量风险评估功能基于用户面功能生成的异常OTT业务流量检测结果进行风险评估,生成有害OTT语音业务应急处置建议;5G策略控制体系PCF根据所述有害OTT语音业务应急处置建议、5G网络运营商安全风险策略及相应用户的签约信息、位置、移动网络接入行为信息,分别生成OTT业务流量控制策略与OTT业务用户网络连接控制策略;利用OTT业务流量控制策略与OTT业务用户网络连接控制策略,5G用户面功能及控制面功能分别对有害OTT业务流量与有害OTT业务用户网络连接进行控制,获取处置结果。本发明通过构建新的接口,并在策略中引入流量标签,可对有害OTT业务流量进行更准确管控。
-
公开(公告)号:CN109933707A
公开(公告)日:2019-06-25
申请号:CN201811285020.2
申请日:2018-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。
-
公开(公告)号:CN108415900A
公开(公告)日:2018-08-17
申请号:CN201810112596.2
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。本发明还提供一种基于多级共现关系词图的可视化文本信息发现系统,包括文档预处理模块、关键词提取模块、多级词图构建模块、词-文档索引构建模块及可视化信息发现模块。
-
公开(公告)号:CN108399213A
公开(公告)日:2018-08-14
申请号:CN201810112624.0
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对所有局部簇进行聚类,生成全局簇。本发明还提供一种面向用户个人文件的聚类系统,包括聚类计算单元、聚类结果存储单元和聚类结果查找单元,其中聚类计算单元包括批量文件聚类计算单元和增量文件聚类计算单元。
-
公开(公告)号:CN117295072A
公开(公告)日:2023-12-26
申请号:CN202210694396.9
申请日:2022-06-16
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: H04W12/67 , H04W12/03 , H04W12/122 , H04W24/08 , H04W24/10 , G06N3/0464 , G06N3/048
Abstract: 本发明公开了一种5G网络中OTT语音业务风险管控策略的生成方法及装置,包括:分析OTT语音业务流量,生成异常OTT语音业务流量或用户行为的检测结果报告;根据所述检测结果报告与预置的OTT语音业务风险情报知识进行风险评估,OTT业务流量风险评估功能生成应急异常OTT语音业务或异常用户行为的风险等级,并依据所述风险等级,生成应急处置建议;基于应急处置建议,策略控制功能生成OTT语音业务风险管控策略。本发明引入新的流量风险评估功能实现对有害加密OTT语音业务、用户行为的风险评估,并结合5G策略控制体系实现有害OTT业务的应急处置。
-
公开(公告)号:CN109933707B
公开(公告)日:2022-10-14
申请号:CN201811285020.2
申请日:2018-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。
-
-
-
-
-
-
-