-
公开(公告)号:CN106649265A
公开(公告)日:2017-05-10
申请号:CN201611053116.7
申请日:2016-11-25
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/277 , G06F17/2705
Abstract: 本发明涉及一种基于图的最大紧密度划分的复合短语无监督识别方法。该方法包括以下步骤:1)采用词性标注工具对输入语料进行词性标注和分词;2)将分词后的输入序列映射到有序的图结构中,将语义紧密度高的词语划分到一个分段内,并使得整个图的紧密度之和最大;3)通过验证各分段是否包含特征词,实现候选复合短语的最终识别。本发明能够自动识别科技类复合短语,省时省力,相比于传统的有监督方法,不需要大量标注语料,便于在线部署应用,是一种高效的科技类复合短语识别方法。
-
公开(公告)号:CN106569997A
公开(公告)日:2017-04-19
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN105049247A
公开(公告)日:2015-11-11
申请号:CN201510391607.1
申请日:2015-07-06
Applicant: 中国科学院信息工程研究所
CPC classification number: H04L41/069 , H04L63/20
Abstract: 本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。具体地,采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类,利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识,可以自动获取网络安全日志格式的模板,能够减小系统负载,提高运算效率和准确性。
-
公开(公告)号:CN104111983A
公开(公告)日:2014-10-22
申请号:CN201410306336.0
申请日:2014-06-30
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/30557
Abstract: 本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。
-
-
-