一种基于多故事线的微博事件摘要提取方法

    公开(公告)号:CN105787121B

    公开(公告)日:2018-08-14

    申请号:CN201610179286.3

    申请日:2016-03-25

    Inventor: 林鸿飞 刘龙飞

    Abstract: 一种基于多故事线的微博事件摘要提取方法,包括:S1、微博语料预处理;S2、微博矢量化;S3、初步提取微博事件故事线;S4、故事线合并;S5、故事线重构;S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。

    一种基于多故事线的微博事件摘要提取方法

    公开(公告)号:CN105787121A

    公开(公告)日:2016-07-20

    申请号:CN201610179286.3

    申请日:2016-03-25

    Inventor: 林鸿飞 刘龙飞

    CPC classification number: G06F17/30011 G06Q50/01

    Abstract: 一种基于多故事线的微博事件摘要提取方法,包括:S1、微博语料预处理;S2、微博矢量化;S3、初步提取微博事件故事线;S4、故事线合并;S5、故事线重构;S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。

Patent Agency Ranking