用于海量短文本信息发现的自动机方法

    公开(公告)号:CN104077358A

    公开(公告)日:2014-10-01

    申请号:CN201410243718.3

    申请日:2014-06-03

    Applicant: 南京大学

    CPC classification number: G06F17/30628 G06F17/30675

    Abstract: 本发明提供一种用于海量短文本信息发现的自动机方法,包括如下步骤:1)自动机建立:a用Trie树结构保存所有关键词,其中树节点视为状态,树边视为状态跳转;b为每个节点的跳转信息建立哈希表;c为每个词尾状态添加词尾标记和整词信息;d为每个节点添加fail跳转;e结束;2)自动机运行:a逐字读取文本,根据当前状态的跳转信息和读入字符进行跳转操作;b每当跳转到词尾状态时,输出该状态内保存的整词信息;c结束。本发明用于海量短文本信息发现的自动机方法在保证正确性的前提下,利用自动机方法大大提高了海量文本信息发现的效率,利用哈希表的方法减少了自动机跳转时查找跳转表的耗时,全程自动化,用户体验友好。

Patent Agency Ranking