一种基于最大熵的事件抽取方法

    公开(公告)号:CN104598535B

    公开(公告)日:2018-03-16

    申请号:CN201410838622.1

    申请日:2014-12-29

    Abstract: 本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。

    一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738B

    公开(公告)日:2017-06-27

    申请号:CN201210500929.1

    申请日:2012-11-29

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种基于分布式关系‑对象映射处理的大数据查询的方法

    公开(公告)号:CN103678609B

    公开(公告)日:2017-05-17

    申请号:CN201310690335.6

    申请日:2013-12-16

    Abstract: 本发明公开了一种基于分布式关系‑对象映射处理的大数据查询的方法。本方法为:1)选取m个数据处理节点,对每一数据处理节点构建一Hibernate Session对象,得到一分布式Hibernate架构,并生成一Session资源队列;2)设置一配置文件,设置每一类型表对应的存储策略和路由策略;将数据量较小S表在每一数据处理节点备份,将数据量较大L表分块存储到m个数据处理节点;3)对输入的查询请求进行解析,根据查询请求的类别选择对应的处理器;4)所选处理器根据该查询请求和对应的路由策略,从资源队列中选择对应的节点对该查询请求进行处理,并对处理结果进行规约。本发明显著提高对大数据表的查询速率。

    一种面向特定区域的事件发生风险预测并预警方法

    公开(公告)号:CN103854064B

    公开(公告)日:2017-01-25

    申请号:CN201210501874.6

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种面向特定区域的事件发生风险预测并预警方法。本方法为:1)对爬取的网页信息进行过滤;2)对网页信息中表示处所的词语进行解析,得到地名词语;基于所建信息本体对网页信息进行处理,将网页信息归入匹配区域;3)利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别;4)根据网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算参数值,如果某事件的特征参数值持续超过设定阈值则对该事件进行预警;5)如果某区域出现设定对象事件预警,基于矩阵分析和回归预测模型对目标区域发生该设定事件的风险进行不同级别的预警。本发明提高了风险预警的效率。

    一种面向用户生成内容的欺骗性垃圾意见检测方法

    公开(公告)号:CN103853744A

    公开(公告)日:2014-06-11

    申请号:CN201210501986.1

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    CPC classification number: G06F17/30861

    Abstract: 本发明公开了一种面向用户生成内容的欺骗性垃圾意见检测方法,本方法为:1)对爬取的网页建立一用户意见信息集合,并进行聚类,得到若干个信息区域;2)计算每一信息区域的标志向量并抽样得到其样本集合;3)对每一样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见样本集合和无标注意见信息样本集合;4)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,计算该样本的最终特征向量;5)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立欺骗性垃圾意见检测模型;6)利用欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明提高了欺骗性垃圾意见的检测效率。

    一种面向主题的获取动态页面内容的方法及系统

    公开(公告)号:CN102662966A

    公开(公告)日:2012-09-12

    申请号:CN201210060335.3

    申请日:2012-03-08

    Abstract: 本发明公开了一种面向主题的获取动态页面内容的方法及系统,属于网络数据采集技术领域。本方法为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;3)根据过滤库检验当前页面中请求的外部文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)如果标记为正常加载的外部文件存在于本地库,则设置本地加载标记,否则设置正常加载标记;5)执行当前页面中的JavaScript,获取动态页面信息;6)获取整合后的页面信息。与现有技术相比,本方法具有更高的时效性、且动态页面信息完整。

Patent Agency Ranking