-
公开(公告)号:CN102693272B
公开(公告)日:2017-04-12
申请号:CN201210067044.7
申请日:2012-03-14
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/3089 , G06F17/30876
Abstract: 本发明涉及从统一资源定位符(URL)中的关键字提取。本文所描述的关键字提取技术从web日志中的统一资源定位符(URL)中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。首先,URL基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。随后通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中存在的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。