-
公开(公告)号:CN100452055C
公开(公告)日:2009-01-14
申请号:CN200710065392.X
申请日:2007-04-13
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本方法涉及一种文本或网络内容分析的大规模多关键词匹配方法,属于计算机数据处理技术领域。本方法包括关键词集预处理和文本或网络内容匹配两个阶段。关键词集预处理阶段建立跳跃表和关键词表,计算各表项的跳跃值,并将关键词关联到关键词表的相应表项。匹配阶段将一个窗口置于待分析的文本或网络内容的开始处,对窗口内的数据块进行哈希运算,检索跳跃表中对应跳跃值,若不为零,则按此值移动窗口,若为零,则对该数据块再进行哈希运算,检索关键词表,根据该表项中的跳跃值移动窗口,并将该表项中关联的关键词依次与文本中相应字段进行比较,确认是否匹配。本发明方法的优点是算法评测性能优异,满足实用要求,硬件可扩展性好。
-
公开(公告)号:CN101030221A
公开(公告)日:2007-09-05
申请号:CN200710065392.X
申请日:2007-04-13
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本方法涉及一种文本或网络内容分析的大规模多关键词匹配方法,属于计算机数据处理技术领域。本方法包括关键词集预处理和文本或网络内容匹配两个阶段。关键词集预处理阶段建立跳跃表和关键词表,计算各表项的跳跃值,并将关键词关联到关键词表的相应表项。匹配阶段将一个窗口置于待分析的文本或网络内容的开始处,对窗口内的数据块进行哈希运算,检索跳跃表中对应跳跃值,若不为零,则按此值移动窗口,若为零,则对该数据块再进行哈希运算,检索关键词表,根据该表项中的跳跃值移动窗口,并将该表项中关联的关键词依次与文本中相应字段进行比较,确认是否匹配。本发明方法的优点是算法评测性能优异,满足实用要求,硬件可扩展性好。
-