一种面向主题的获取动态页面内容的方法及系统

    公开(公告)号:CN102662966B

    公开(公告)日:2014-01-01

    申请号:CN201210060335.3

    申请日:2012-03-08

    Abstract: 本发明公开了一种面向主题的获取动态页面内容的方法及系统,属于网络数据采集技术领域。本方法为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;3)根据过滤库检验当前页面中请求的外部文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)如果标记为正常加载的外部文件存在于本地库,则设置本地加载标记,否则设置正常加载标记;5)执行当前页面中的JavaScript,获取动态页面信息;6)获取整合后的页面信息。与现有技术相比,本方法具有更高的时效性、且动态页面信息完整。

    面向全球变化研究的空间科学数据元数据自动汇聚方法

    公开(公告)号:CN102289483B

    公开(公告)日:2012-12-19

    申请号:CN201110220537.5

    申请日:2011-08-02

    Abstract: 本发明公开一种面向全球变化研究的空间科学数据元数据自动汇聚方法,属于信息技术领域。本方法为:1)选定数据源,服务器定期对数据源进行访问,生成下载列表和下载任务;2)根据当前下载列表和下载任务,访问数据源服务器,进行元数据文件下载,并将其保存到服务器;3)对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取、计算和转换;4)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;5)通过文件路径、元数据项数据库的id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。本方法可一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。

    面向全球变化研究的空间科学数据元数据自动汇聚方法

    公开(公告)号:CN102289483A

    公开(公告)日:2011-12-21

    申请号:CN201110220537.5

    申请日:2011-08-02

    Abstract: 本发明公开一种面向全球变化研究的空间科学数据元数据自动汇聚方法,属于信息技术领域。本方法为:1)选定数据源,服务器定期对数据源进行访问,生成下载列表和下载任务;2)根据当前下载列表和下载任务,访问数据源服务器,进行元数据文件下载,并将其保存到服务器;3)对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取、计算和转换;4)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;5)通过文件路径、元数据项数据库的id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。本方法可一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。

    一种基于区域和对象信息发现的事件预警方法

    公开(公告)号:CN103853700B

    公开(公告)日:2016-09-07

    申请号:CN201210501970.0

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种基于区域和对象信息发现的事件预警方法。本方法为:1)对爬取的网页信息进行过滤,得到与食品安全事件相关的非垃圾网页信息;2)对网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所建事件信息本体对网页信息进行处理,将网页信息归入匹配成功的区域;3)利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别;4)根据网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续超过设定阈值则对该事件进行预警。本发明提高了事件预警的准确性和全面性,保证了食品安全事件预警的效率。

    一种基于互联网信息的事件预警方法

    公开(公告)号:CN103176983B

    公开(公告)日:2016-04-27

    申请号:CN201110430949.1

    申请日:2011-12-20

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种基于互联网信息的事件预警方法,属于信息技术领域。其方法为:1)对每一设定网站进行网页信息爬取并保存,得到与事件相关的信息;2)对爬取得到的与事件相关的信息进行垃圾信息过滤;3)建立事件信息本体,基于所述事件信息本体中的实例名称和属性采用模式匹配方法对过滤后的信息进行分类;4)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;5)定期计算每一事件的各特征参数值,如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息识别、预警的及时性、准确性、全面性,提高了食品安全风险预警的效率。

    一种事件信息挖掘并预警的方法

    公开(公告)号:CN103176981B

    公开(公告)日:2016-04-27

    申请号:CN201110430831.9

    申请日:2011-12-20

    Abstract: 本发明公开了一种事件信息挖掘并预警的方法,属于信息技术领域。本方法为:1)建立事件信息本体,对爬取的互联网信息进行过滤,得到与事件相关的信息;2)基于所述事件信息本体中的实例名称和属性对过滤后的信息进行分类;3)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;4)定期计算每一事件的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数等事件特征参数值;5)如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息发现、预警的准确性和全面性,提高了食品安全风险预警的效率。

    一种用户生成内容中欺骗性垃圾意见检测方法

    公开(公告)号:CN103176984B

    公开(公告)日:2016-01-20

    申请号:CN201110430978.8

    申请日:2011-12-20

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种用户生成内容中欺骗性垃圾意见检测方法,属于信息技术领域。本方法为:1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;2)对集合中的样本进行过滤,形成准确欺骗性垃圾意见集合;3)从意见作者、意见内容、内容分布、链接四个纬度对准确欺骗性垃圾意见集合及无标注用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;4)采用机器学习方法建立每一维度的欺骗性垃圾意见检测模型;5)利用所述欺骗性垃圾意见检测模型等对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明大大提高了欺骗性垃圾意见的检测效率。

    一种面向特定区域的事件发生风险预测并预警方法

    公开(公告)号:CN103854064A

    公开(公告)日:2014-06-11

    申请号:CN201210501874.6

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种面向特定区域的事件发生风险预测并预警方法。本方法为:1)对爬取的网页信息进行过滤;2)对网页信息中表示处所的词语进行解析,得到地名词语;基于所建信息本体对网页信息进行处理,将网页信息归入匹配区域;3)利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别;4)根据网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算参数值,如果某事件的特征参数值持续超过设定阈值则对该事件进行预警;5)如果某区域出现设定对象事件预警,基于矩阵分析和回归预测模型对目标区域发生该设定事件的风险进行不同级别的预警。本发明提高了风险预警的效率。

    一种事件信息挖掘并预警的方法

    公开(公告)号:CN103176981A

    公开(公告)日:2013-06-26

    申请号:CN201110430831.9

    申请日:2011-12-20

    Abstract: 本发明公开了一种事件信息挖掘并预警的方法,属于信息技术领域。本方法为:1)建立事件信息本体,对爬取的互联网信息进行过滤,得到与事件相关的信息;2)基于所述事件信息本体中的实例名称和属性对过滤后的信息进行分类;3)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;4)定期计算每一事件的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数等事件特征参数值;5)如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息发现、预警的准确性和全面性,提高了食品安全风险预警的效率。

    一种基于空间数据数值索引的数据存储与检索方法

    公开(公告)号:CN103020281A

    公开(公告)日:2013-04-03

    申请号:CN201210580189.7

    申请日:2012-12-27

    Abstract: 本发明公开了一种基于空间数据数值索引的数据存储与检索方法。本方法为:1)从互联网中自动抓取包含空间数据的页面,对其进行解析后存储到数据库中;2)在数据库中选择要进行索引的属性,对于其中非数值类型的属性,将其转换成与其应的数值进行存储;3)按照空间数据所属类型对空间数据进行分类索引,为每一数据产品的数据表建立一数值索引文件,将其作为主索引,并按设定时间周期创建增量索引,定期将增量索引与主索引进行合并;所述数值索引文件包括一个索引属性与倒排文件映射表和多个数值文档倒排表;4)将所述索引部署到检索服务端;5)检索服务端根据收到的检索请求,对数据表进行检索。本方法检索速度、支持增量索引。

Patent Agency Ranking