基于用户生成内容的新闻认证预警方法及系统

    公开(公告)号:CN104636408A

    公开(公告)日:2015-05-20

    申请号:CN201410414956.6

    申请日:2014-08-21

    CPC classification number: G06F17/3089 G06F17/30705

    Abstract: 本发明公开了一种基于用户生成内容的新闻认证预警方法及系统,其中该方法包括,通过对新闻线索进行语义扩展,获得参考数据,将该参考数据进行定向采集,获取该新闻线索相关的信息内容、传输模式、用户群体、用户群体的行为信息和属性信息等,对信息内容进行语义知识提取,将该语义知识进行进行聚类和相似度计算,识别与历史新闻线索数据库不匹配的新闻线索,并从语义知识对比、用户群体、传播模式和信息内容等方面对其进行可信度评估。最终形成UGC新闻真实性的分级度量和预警,为该新闻是否为真实信息提供决策支持。

    基于用户生成内容的新闻认证预警方法及系统

    公开(公告)号:CN104636408B

    公开(公告)日:2017-08-08

    申请号:CN201410414956.6

    申请日:2014-08-21

    Abstract: 本发明公开了一种基于用户生成内容的新闻认证预警方法及系统,其中该方法包括,通过对新闻线索进行语义扩展,获得参考数据,将该参考数据进行定向采集,获取该新闻线索相关的信息内容、传输模式、用户群体、用户群体的行为信息和属性信息等,对信息内容进行语义知识提取,将该语义知识进行进行聚类和相似度计算,识别与历史新闻线索数据库不匹配的新闻线索,并从语义知识对比、用户群体、传播模式和信息内容等方面对其进行可信度评估。最终形成UGC新闻真实性的分级度量和预警,为该新闻是否为真实信息提供决策支持。

    基于微博内容的关键词挖掘方法及系统

    公开(公告)号:CN104504024B

    公开(公告)日:2018-09-07

    申请号:CN201410768704.3

    申请日:2014-12-11

    Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

    一种微博信息采集方法及系统

    公开(公告)号:CN103399968B

    公开(公告)日:2016-08-10

    申请号:CN201310298119.7

    申请日:2013-07-16

    Abstract: 本发明提供一种微博信息采集方法及系统,所述方法包括:根据用户提交的查询确定信息类型以及页面链接参数;向微博服务器发送根据所述信息类型和所述页面链接参数构造的页面请求链接,抽取返回页面中的基础信息数据项。所述方法还包括:并行执行信息所在页面的相关信息采集。本发明提供的微博信息采集方法和系统在提高信息采集效率的同时,可以获取更完整的微博信息。

    一种面向用户生成内容的分布式采集方法与系统

    公开(公告)号:CN104735138A

    公开(公告)日:2015-06-24

    申请号:CN201510102980.0

    申请日:2015-03-09

    CPC classification number: H04L67/02 G06F17/30861

    Abstract: 本发明提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。

    基于微博内容的关键词挖掘方法及系统

    公开(公告)号:CN104504024A

    公开(公告)日:2015-04-08

    申请号:CN201410768704.3

    申请日:2014-12-11

    CPC classification number: G06F17/30616

    Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

    一种面向用户生成内容的分布式采集方法与系统

    公开(公告)号:CN104735138B

    公开(公告)日:2018-01-09

    申请号:CN201510102980.0

    申请日:2015-03-09

    Abstract: 本发明提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。

    一种微博信息采集方法及系统

    公开(公告)号:CN103399968A

    公开(公告)日:2013-11-20

    申请号:CN201310298119.7

    申请日:2013-07-16

    Abstract: 本发明提供一种微博信息采集方法及系统,所述方法包括:根据用户提交的查询确定信息类型以及页面链接参数;向微博服务器发送根据所述信息类型和所述页面链接参数构造的页面请求链接,抽取返回页面中的基础信息数据项。所述方法还包括:并行执行信息所在页面的相关信息采集。本发明提供的微博信息采集方法和系统在提高信息采集效率的同时,可以获取更完整的微博信息。

Patent Agency Ranking