一种通用的新闻评论采集方法及装置

    公开(公告)号:CN103886078B

    公开(公告)日:2017-05-10

    申请号:CN201410114600.0

    申请日:2014-03-25

    Abstract: 本发明涉及一种通用的新闻评论采集方法及装置,包括以下步骤:获取用户输入的新闻链接地址及用户配置的采集配置文件;读取采集配置文件中的模板地址;根据新闻链接地址分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中的配置信息;逐条根据配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数;逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。本发明能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性。

    一种HTTP的模拟浏览器测试脚本生成方法及装置

    公开(公告)号:CN103885877B

    公开(公告)日:2017-02-08

    申请号:CN201410085191.6

    申请日:2014-03-10

    Abstract: 本发明涉及计算机网络技术领域,是一种HTTP的模拟浏览器测试脚本生成方法及装置。所述方法包括:录制器检测浏览器与代理服务器之间的信息是否存在会话内容;当检测到所述浏览器与所述代理服务器之间的信息存在会话内容时,录制器开始监听所述代理服务器的URL信息、并将所述浏览器与所述代理服务器之间的会话内容记录存储;所述录制器根据所述浏览器与所述代理服务器之间的会话内容生成初级脚本;所述录制器根据代理服务器发送URL信息进行Cookie自动化处理生成Cookie字段,并将所述Cookie字段保存到初级脚本中;所述录制器对初级脚本中的Cookie字段进行参数化处理生成最终脚本。

    一种结构化对等网络构建索引的方法、检索方法、装置及系统

    公开(公告)号:CN105989078A

    公开(公告)日:2016-10-05

    申请号:CN201510072216.3

    申请日:2015-02-11

    Abstract: 一种结构化对等网络构建索引的方法、检索方法、装置及系统。构建索引的方法包括:选取哈希函数索引参数;根据哈希函数族,将索引数据映射到l个哈希表中,每个索引数据进行k次哈希运算进入一个k维向量桶中;对于l个哈希表中的每个桶,计算随机点p的l2范数;根据随机点p的l2范数估计索引数据集合D的正态分布;根据所述正态分布,将桶空间分成常规区域和稀疏区域;根据常规区域和稀疏区域,将l个哈希表中的每个桶分别映射到一维分布式哈希表的各个键值中;根据chord路由协议,依次将各个键值插入到对等网络的各个节点中。本发明实现了将局部敏感哈希算法扩展到分布式结构化对等网络,提升了检索速度,同时保留了原有集中式局部哈希算法检索的精度。

    一种结构化对等网络构建索引的方法、检索方法、装置及系统

    公开(公告)号:CN105989078B

    公开(公告)日:2019-05-07

    申请号:CN201510072216.3

    申请日:2015-02-11

    Abstract: 一种结构化对等网络构建索引的方法、检索方法、装置及系统。构建索引的方法包括:选取哈希函数索引参数;根据哈希函数族,将索引数据映射到l个哈希表中,每个索引数据进行k次哈希运算进入一个k维向量桶中;对于l个哈希表中的每个桶,计算随机点p的l2范数;根据随机点p的l2范数估计索引数据集合D的正态分布;根据所述正态分布,将桶空间分成常规区域和稀疏区域;根据常规区域和稀疏区域,将l个哈希表中的每个桶分别映射到一维分布式哈希表的各个键值中;根据chord路由协议,依次将各个键值插入到对等网络的各个节点中。本发明实现了将局部敏感哈希算法扩展到分布式结构化对等网络,提升了检索速度,同时保留了原有集中式局部哈希算法检索的精度。

    一种有向网络链路预测方法

    公开(公告)号:CN108345656A

    公开(公告)日:2018-07-31

    申请号:CN201810088450.9

    申请日:2018-01-30

    Abstract: 本发明涉及一种有向网络链路预测方法,所述方法包括以下步骤:步骤S1、计算所述有向网络的相对度量指标总量LB;步骤S2、在所述有向网络中增加一条待选链路,并计算增加所述待选链路后所述有向网络的相对度量指标总量LA;步骤S3、计算所述有向网络的相对度量指标总量之差ΔL=LB-LA;步骤S4、重复步骤S2以及步骤S3,得到多条待选链路对应的相对度量指标总量之差,并将所述相对度量指标总量之差最大值对应的待选链路作为所述有向网络生成的优选链路;本发明提供一种有向网络链路预测方法,具有计算简单、时间复杂度低、预测效果好的技术效果。

    一种负面舆情指数的计算方法及系统

    公开(公告)号:CN104951548B

    公开(公告)日:2018-04-20

    申请号:CN201510355005.0

    申请日:2015-06-24

    Abstract: 本发明涉及一种负面舆情指数的计算方法及系统,包括步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Mode l模型的SVM分类,分别得到分类结果1和分类结果2;步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。本发明计算出的负面舆情指数准确率高,计算语料范围广且能够实时计算。

    一种基于节点相似度的链路预测方法及装置

    公开(公告)号:CN106817251A

    公开(公告)日:2017-06-09

    申请号:CN201611207950.7

    申请日:2016-12-23

    Abstract: 本发明涉及一种基于节点相似度的链路预测方法,包括以下步骤:对待分析的网络进行节点和链路表示;获取网络中两个没有直接链路连接的节点;读取所述两个没有直接链路连接的节点各自的邻居节点集合;对所述两个没有直接链路连接的节点各自的邻居节点集合取交集,得到共同邻居集合;将共同邻居集合视为子网,进行子网全局簇系数和子网中任意一个共同邻居节点簇系数的计算;根据子网全局簇系数和子网中任意一个共同邻居节点簇系数计算所述两个没有直接链路连接的节点相似度;根据计算得到的节点相似度进行链路预测。本发明在分析复杂网络局部结构中节点的相互关系时从簇系数角度出发,定义了基于局部簇系数的节点相似度计算新指标。

    一种识别网页类型的系统和方法

    公开(公告)号:CN103544210B

    公开(公告)日:2017-01-18

    申请号:CN201310391961.5

    申请日:2013-09-02

    Abstract: 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。

    一种识别网页类型的系统和方法

    公开(公告)号:CN103544210A

    公开(公告)日:2014-01-29

    申请号:CN201310391961.5

    申请日:2013-09-02

    CPC classification number: G06F17/30876

    Abstract: 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。

    一种负面舆情指数的计算方法及系统

    公开(公告)号:CN104951548A

    公开(公告)日:2015-09-30

    申请号:CN201510355005.0

    申请日:2015-06-24

    CPC classification number: G06F17/30705 G06F17/30737 G06F17/30867

    Abstract: 本发明涉及一种负面舆情指数的计算方法及系统,包括步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Mode l模型的SVM分类,分别得到分类结果1和分类结果2;步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。本发明计算出的负面舆情指数准确率高,计算语料范围广且能够实时计算。

Patent Agency Ranking