从统一资源定位符(URL)的关键字提取

    公开(公告)号:CN102693272B

    公开(公告)日:2017-04-12

    申请号:CN201210067044.7

    申请日:2012-03-14

    CPC classification number: G06F17/3089 G06F17/30876

    Abstract: 本发明涉及从统一资源定位符(URL)中的关键字提取。本文所描述的关键字提取技术从web日志中的统一资源定位符(URL)中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。首先,URL基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。随后通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中存在的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。

Patent Agency Ranking