一种中文微博客的热点话题检测方法

    公开(公告)号:CN103745000A

    公开(公告)日:2014-04-23

    申请号:CN201410034402.3

    申请日:2014-01-24

    Applicant: 福州大学

    CPC classification number: G06F17/30864 G06F17/30705

    Abstract: 本发明涉及一种中文微博客的热点话题检测方法,包括以下步骤:(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。该方法能够高效、准确地对中文微博客进行热点话题检测,检测速度快,准确度高,适用范围广,应用性强。

    一种多记录网页的信息抽取系统及方法

    公开(公告)号:CN103761312B

    公开(公告)日:2017-02-08

    申请号:CN201410034376.4

    申请日:2014-01-24

    Applicant: 福州大学

    Abstract: 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

    一种用于度量主流情感信息的中文情感文摘系统及方法

    公开(公告)号:CN103744838B

    公开(公告)日:2016-09-07

    申请号:CN201410034395.7

    申请日:2014-01-24

    Applicant: 福州大学

    Abstract: 本发明涉及一种用于度量主流情感信息的中文情感文摘系统及方法,该系统包括:评论数据预处理模块,用于抽取评论数据中每个句子包含的各个评价对象及其对应的评价短语,转化为由评价对象及其对应的情感强度等级构成的单位,建立与各个评价对象相对应的评价对象数据结构,将评论数据转化成句子集合;单位情感信息度量模块,用于计算每个单位的情感信息量;句子情感信息度量模块,用于计算每个句子的情感信息量;以及情感文摘生成模块,用于根据句子的情感信息量大小对所有句子进行排序,选择前k个句子组成最终的情感文摘。该系统及方法有利于从评论数据中提取包含主流情感信息的情感文摘,准确度高,适应范围广。

    一种用于度量主流情感信息的中文情感文摘系统及方法

    公开(公告)号:CN103744838A

    公开(公告)日:2014-04-23

    申请号:CN201410034395.7

    申请日:2014-01-24

    Applicant: 福州大学

    Abstract: 本发明涉及一种用于度量主流情感信息的中文情感文摘系统及方法,该系统包括:评论数据预处理模块,用于抽取评论数据中每个句子包含的各个评价对象及其对应的评价短语,转化为由评价对象及其对应的情感强度等级构成的单位,建立与各个评价对象相对应的评价对象数据结构,将评论数据转化成句子集合;单位情感信息度量模块,用于计算每个单位的情感信息量;句子情感信息度量模块,用于计算每个句子的情感信息量;以及情感文摘生成模块,用于根据句子的情感信息量大小对所有句子进行排序,选择前k个句子组成最终的情感文摘。该系统及方法有利于从评论数据中提取包含主流情感信息的情感文摘,准确度高,适应范围广。

    一种产品垃圾评论者检测系统

    公开(公告)号:CN103745001B

    公开(公告)日:2016-10-05

    申请号:CN201410034998.7

    申请日:2014-01-24

    Applicant: 福州大学

    Abstract: 本发明涉及一种产品垃圾评论者检测系统,包括:预处理及数据输入模块,用于对回复数据集进行预处理,过滤无效的回复,得到新的回复数据集,然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输入模型计算模块;模型计算模块,包括评论者可信度模型、评论真实度模型和商店可靠性模型,用于迭代计算评论者可信度、评论真实度和商店可靠性;以及结果输出模块,用于输出计算得到的评论者可信度,得到最终的检测结果。该系统检测速度快,准确度高,通用性强。

    一种产品垃圾评论者检测系统

    公开(公告)号:CN103745001A

    公开(公告)日:2014-04-23

    申请号:CN201410034998.7

    申请日:2014-01-24

    Applicant: 福州大学

    CPC classification number: G06F17/30699

    Abstract: 本发明涉及一种产品垃圾评论者检测系统,包括:预处理及数据输入模块,用于对回复数据集进行预处理,过滤无效的回复,得到新的回复数据集,然后将评论数据集、回复数据集、评论者集合、回复者集合、商店集合和产品集合输入模型计算模块;模型计算模块,包括评论者可信度模型、评论真实度模型和商店可靠性模型,用于迭代计算评论者可信度、评论真实度和商店可靠性;以及结果输出模块,用于输出计算得到的评论者可信度,得到最终的检测结果。该系统检测速度快,准确度高,通用性强。

    一种中文微博客的热点话题检测方法

    公开(公告)号:CN103745000B

    公开(公告)日:2017-02-01

    申请号:CN201410034402.3

    申请日:2014-01-24

    Applicant: 福州大学

    Abstract: 本发明涉及一种中文微博客的热点话题检测方法,包括以下步骤:(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。该方法能够高效、准确地对中文微博客进行热点话题检测,检测速度快,准确度高,适用范围广,应用性强。

    一种多记录网页的信息抽取系统及方法

    公开(公告)号:CN103761312A

    公开(公告)日:2014-04-30

    申请号:CN201410034376.4

    申请日:2014-01-24

    Applicant: 福州大学

    CPC classification number: G06F17/30864 G06F17/30908

    Abstract: 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

Patent Agency Ranking