-
公开(公告)号:CN104572958B
公开(公告)日:2018-10-02
申请号:CN201410849418.X
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。
-
公开(公告)号:CN103678609A
公开(公告)日:2014-03-26
申请号:CN201310690335.6
申请日:2013-12-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/30595 , G06F17/30424
Abstract: 本发明公开了一种基于分布式关系-对象映射处理的大数据查询的方法。本方法为:1)选取m个数据处理节点,对每一数据处理节点构建一Hibernate Session对象,得到一分布式Hibernate架构,并生成一Session资源队列;2)设置一配置文件,设置每一类型表对应的存储策略和路由策略;将数据量较小S表在每一数据处理节点备份,将数据量较大L表分块存储到m个数据处理节点;3)对输入的查询请求进行解析,根据查询请求的类别选择对应的处理器;4)所选处理器根据该查询请求和对应的路由策略,从资源队列中选择对应的节点对该查询请求进行处理,并对处理结果进行规约。本发明显著提高对大数据表的查询速率。
-
公开(公告)号:CN117807285A
公开(公告)日:2024-04-02
申请号:CN202311798857.8
申请日:2023-12-25
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/904 , G06F9/445
Abstract: 本发明公开一种插件式可扩展科学数据文件可视化预览方法及设备,该方法包括:从消费队列中获取待处理文件,该待处理文件通过对科学数据文件组装得到;在待处理文件对应的文件类型为该插件的目标类型的情况下,消费待处理文件消息,生成预览结果模型,以使前端基于预览结果模型进行预览结果文件的渲染展示。本发明能以扩展插件方式实现可扩展的多学科科学数据文件预览。
-
公开(公告)号:CN104598535A
公开(公告)日:2015-05-06
申请号:CN201410838622.1
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/2785 , G06F17/2795
Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。
-
公开(公告)号:CN104572958A
公开(公告)日:2015-04-29
申请号:CN201410849418.X
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
CPC classification number: G06F17/30737 , G06F17/30707
Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。
-
公开(公告)号:CN116991460A
公开(公告)日:2023-11-03
申请号:CN202310509400.4
申请日:2023-05-08
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明涉及一种基于图数据库的数据集文件版本控制方法和系统。该方法对数据集文件建立图数据库模型;基于图数据库模型,通过创建节点和关系,以镜像的方式构建新的数据集文件版本;对于新的数据集文件版本,通过构建中间件驱动程序实现文件操作。所述图数据库模型包括Dataset节点、Version节点、File节点、Blob节点共4类节点,以及HAS_VERSION关系、CONTAINS关系、REF_BLOB关系共3类关系。本发明将文件的比特信息内容和元信息内容分离,建立元信息内容和比特信息内容的关系,利用图数据库能够对节点和关系快速检索和遍历的技术特点,能够实现文件版本的建立、管理、以及目录的结构的快速遍历查找。
-
公开(公告)号:CN118035190A
公开(公告)日:2024-05-14
申请号:CN202410036687.8
申请日:2024-01-10
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/176 , G06F8/30 , G06F9/445 , G06F21/62 , G06F11/34
Abstract: 本发明公开一种科学数据内容级细粒度可控供给方法及系统,该方法包括:构建科学数据解析器的热加载运行环境;建设科学数据解析器资源池,所述科学数据解析器资源池中的科学数据解析器包括:为所有数据文件提供的默认数据解析器、为常见数据格式的数据文件提供的通用格式数据文件解析器和为特定领域数据文件提供的领域专用数据解析器;建立每一数据文件和科学数据解析器的对应关系,并在所述科学数据解析器资源池更新时,对所述对应关系进行更新;基于所述对应关系组装所述数据文件和所述科学数据解析器,以实现数据文件的线上内容级供给服务。本发明实现了数据利用的安全可控、可用不可见以及可计量可评价。
-
公开(公告)号:CN104598535B
公开(公告)日:2018-03-16
申请号:CN201410838622.1
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。
-
公开(公告)号:CN103678609B
公开(公告)日:2017-05-17
申请号:CN201310690335.6
申请日:2013-12-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于分布式关系‑对象映射处理的大数据查询的方法。本方法为:1)选取m个数据处理节点,对每一数据处理节点构建一Hibernate Session对象,得到一分布式Hibernate架构,并生成一Session资源队列;2)设置一配置文件,设置每一类型表对应的存储策略和路由策略;将数据量较小S表在每一数据处理节点备份,将数据量较大L表分块存储到m个数据处理节点;3)对输入的查询请求进行解析,根据查询请求的类别选择对应的处理器;4)所选处理器根据该查询请求和对应的路由策略,从资源队列中选择对应的节点对该查询请求进行处理,并对处理结果进行规约。本发明显著提高对大数据表的查询速率。
-
-
-
-
-
-
-
-