基于Pitman-Yor过程的新闻热点发现方法

    公开(公告)号:CN106156276B

    公开(公告)日:2019-07-19

    申请号:CN201610469344.6

    申请日:2016-06-25

    Inventor: 黄瑞章 钟文良

    Abstract: 本发明公开了一种基于Pitman‑Yor过程的新闻热点发现方法。本发明可以自动从新闻数据集中自动挖掘热点个数,而不需要人为的设定吗,也就是新闻热点的个数随着随着数据集大小而变化;然后,在现实的新闻数据集中,一个新的热点往往是处于新闻样本个数少量的类别中,另一方面,大多数已存在的、过时的新闻主题的类别的样本个数巨大,从而造成新热点的样本难以有效的识别出来。所以,本发明的另一个贡献在于新热点可以从这种极端不平衡的数据集中识别出新的热点样本。最终实现了新闻热点在这种真实存在的数据分布情况下的有效识别。

    基于模糊序列模式发掘的网页内容提取方法

    公开(公告)号:CN106547851A

    公开(公告)日:2017-03-29

    申请号:CN201610911400.7

    申请日:2016-10-19

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题,通过相同内容块内容在超文本标记语言中距离较近,不同内容块的内容相距较远的原理,针对网页上的每一个内容模块,分别用一个行文字长度序列的方式来表示,同时越是功能性模块模糊度越低,信息越丰富的内容模块序列模糊度越高。针对不同网站,利用少量给定网页进行训练,得到模糊序列模式,对于来自同一个网站的新页面将利用模糊序列模式来进行匹配,得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性,同时能够将不同类型的内容分开提取。

    基于模糊序列模式发掘的网页内容提取方法

    公开(公告)号:CN106547851B

    公开(公告)日:2020-04-07

    申请号:CN201610911400.7

    申请日:2016-10-19

    Abstract: 本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题,通过相同内容块内容在超文本标记语言中距离较近,不同内容块的内容相距较远的原理,针对网页上的每一个内容模块,分别用一个行文字长度序列的方式来表示,同时越是功能性模块模糊度越低,信息越丰富的内容模块序列模糊度越高。针对不同网站,利用少量给定网页进行训练,得到模糊序列模式,对于来自同一个网站的新页面将利用模糊序列模式来进行匹配,得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性,同时能够将不同类型的内容分开提取。

    基于Pitman‑Yor过程的新闻热点发现方法

    公开(公告)号:CN106156276A

    公开(公告)日:2016-11-23

    申请号:CN201610469344.6

    申请日:2016-06-25

    Inventor: 黄瑞章 钟文良

    CPC classification number: G06F16/355 G06F16/374 G06F16/951

    Abstract: 本发明公开了一种基于Pitman‑Yor过程的新闻热点发现方法。本发明可以自动从新闻数据集中自动挖掘热点个数,而不需要人为的设定吗,也就是新闻热点的个数随着随着数据集大小而变化;然后,在现实的新闻数据集中,一个新的热点往往是处于新闻样本个数少量的类别中,另一方面,大多数已存在的、过时的新闻主题的类别的样本个数巨大,从而造成新热点的样本难以有效的识别出来。所以,本发明的另一个贡献在于新热点可以从这种极端不平衡的数据集中识别出新的热点样本。最终实现了新闻热点在这种真实存在的数据分布情况下的有效识别。

Patent Agency Ranking