一种安全的网络信息传输方法

    公开(公告)号:CN103001976A

    公开(公告)日:2013-03-27

    申请号:CN201210591352.X

    申请日:2012-12-28

    Abstract: 本发明公开了一种安全的网络信息传输方法。本方法为:1)客户端向服务器发起服务请求;2)服务器端对服务请求中的用户信息和客户端IP地址进行验证,如果验证通过则与其建立一会话;3)服务器端生成一密钥,并通过该客户端公钥对该密钥加密后发给该客户端;4)该客户端利用私钥对该密钥信息进行解密,并将解密出的密钥信息通过服务器端公钥加密后发给服务器端;5)服务器端将该服务请求的数据进行数字签名,并用该密钥对数据以及数字签名信息进行加密发送给该客户端;6)该客户端对数据进行解密和一致性验证,对一致性验证不通过的信息进行丢弃并申请服务器端重传,验证通过的信息存入本地数据库。本发明大大提高了信息传输的安全性。

    一种高效的文本数据挖掘方法

    公开(公告)号:CN102402606B

    公开(公告)日:2013-03-20

    申请号:CN201110385415.1

    申请日:2011-11-28

    Abstract: 本发明公开了一种高效的文本数据挖掘方法,属于信息技术领域。本方法为:1)文件预处理阶段将内容经分词后的原文件合并为若干新文件;2)数据映射阶段计算每一词语在新文件中的总频数、在其中每一原文件中的频数及相对频率pr等,并将结果发送到重定向模块中;3)重定向阶段计算每一Reduce任务的负载量payload,并为每一Reduce任务设置一负载指示器payi;4)判断当前词语是否已分配了Reduce任务;如果未分配,则将其分配给Reducej,且payj+pr*100≤payload成立;然后更新Reducej的负载指示payj;否则将当前词语分配给相应Reducei任务;5)数据规约阶段对分配的词语计算其最终的频数等参数;6)根据数据规约结果,提取设定范围内频数大于设定阈值的词语。本发明大大提高频数计算、数据挖掘效率。

    一种基于事件抽取的敏感信息监控方法

    公开(公告)号:CN104572958B

    公开(公告)日:2018-10-02

    申请号:CN201410849418.X

    申请日:2014-12-29

    Abstract: 本发明公开了一种基于事件抽取的敏感信息监控方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取;将抽取到的事件与被监控事件匹配,若相同,则判定抽取到的事件为敏感信息。本发明大大提高了敏感信息的监控效率。

    一种基于互联网开放信息的事件发生风险预测并预警方法

    公开(公告)号:CN103854063B

    公开(公告)日:2017-04-05

    申请号:CN201210501872.7

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种基于互联网开放信息的事件发生风险预测并预警方法。本发明为:1)对网页信息进行垃圾过滤;2)对过滤后的网页信息中表示处所的词语进行解析,得到地名词语;基于所建信息本体对解析后的网页信息进行处理,将网页信息归入匹配区域;3)对网页信息进行过滤,得到与食品安全相关的网页信息;然后利用回归分析模型对过滤后的网页信息进行处理,判断每一网页信息相关的对象类别;4)确定设定区域、对象事件的网页信息集合,建立事件特征参数并定期计算参数值,如果某事件的特征参数值超过设定阈值则对该事件进行预警;5)基于矩阵分析和回归预测模型对目标区域发生设定事件的风险进行不同预警。本发明提高了风险预警的效率。

    一种面向用户生成内容的欺骗性垃圾意见检测方法

    公开(公告)号:CN103853744B

    公开(公告)日:2017-02-22

    申请号:CN201210501986.1

    申请日:2012-11-29

    Inventor: 杨风雷 黎建辉

    Abstract: 本发明公开了一种面向用户生成内容的欺骗性垃圾意见检测方法,本方法为:1)对爬取的网页建立一用户意见信息集合,并进行聚类,得到若干个信息区域;2)计算每一信息区域的标志向量并抽样得到其样本集合;3)对每一样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见样本集合和无标注意见信息样本集合;4)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,计算该样本的最终特征向量;5)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立欺骗性垃圾意见检测模型;6)利用欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明提高了欺骗性垃圾意见的检测效率。

    一种及时高效的互联网信息爬取方法

    公开(公告)号:CN103176985B

    公开(公告)日:2016-06-29

    申请号:CN201110430997.0

    申请日:2011-12-20

    Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。

    一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738A

    公开(公告)日:2014-06-11

    申请号:CN201210500929.1

    申请日:2012-11-29

    CPC classification number: G06F17/30864 G06F17/2785

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种基于中文文本情感识别的网络热点挖掘方法

    公开(公告)号:CN103744953A

    公开(公告)日:2014-04-23

    申请号:CN201410001471.4

    申请日:2014-01-02

    CPC classification number: G06F17/274 G06F17/2735

    Abstract: 本发明公开了一种基于中文文本情感识别的网络热点挖掘方法。本方法为:1)分别构建褒贬义词典、程度词典、否定词典;2)对设定事件文本的句子进行分词处理,得到词语的依存关系和词频;3)根据词频选取主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,然后根据该词语的修饰程度词语在程度词典的取值确定该词语的权重、并确定极性,得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该文本中所有句子的情感值求和,得到该文本的情感状态;6)根据所有文本的情感倾向确定该设定事件是否为热点事件。本发明大大提高热点事件识别的准确率。

    一种基于分布式关系-对象映射处理的大数据查询的方法

    公开(公告)号:CN103678609A

    公开(公告)日:2014-03-26

    申请号:CN201310690335.6

    申请日:2013-12-16

    CPC classification number: G06F17/30595 G06F17/30424

    Abstract: 本发明公开了一种基于分布式关系-对象映射处理的大数据查询的方法。本方法为:1)选取m个数据处理节点,对每一数据处理节点构建一Hibernate Session对象,得到一分布式Hibernate架构,并生成一Session资源队列;2)设置一配置文件,设置每一类型表对应的存储策略和路由策略;将数据量较小S表在每一数据处理节点备份,将数据量较大L表分块存储到m个数据处理节点;3)对输入的查询请求进行解析,根据查询请求的类别选择对应的处理器;4)所选处理器根据该查询请求和对应的路由策略,从资源队列中选择对应的节点对该查询请求进行处理,并对处理结果进行规约。本发明显著提高对大数据表的查询速率。

    一种及时高效的互联网信息爬取方法

    公开(公告)号:CN103176985A

    公开(公告)日:2013-06-26

    申请号:CN201110430997.0

    申请日:2011-12-20

    Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。

Patent Agency Ranking