在搜索结果排序中对垃圾的检测

    公开(公告)号:CN102918532B

    公开(公告)日:2015-12-16

    申请号:CN201180027027.4

    申请日:2011-04-19

    CPC classification number: G06F17/30 G06F17/00 G06F17/30657 G06F17/30864

    Abstract: 各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。垃圾简档提供了表示已知的垃圾文档的参考度量。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。

Patent Agency Ranking