|
a. 内容型(内容欺骗型与非欺骗型) b. 链接型 c. 复合型
Google 搜索引擎判断spam的一般方法
- 链接分析:网站(域名,IP)之间的链接,网页之间的链接的数目,应该限制在一定的数目内,并且要考虑分布的状况。
- 面单一词汇的分析:(有时叫关键词密度分析)页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。
- 连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。
- 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam。
- 相关分析:白名单,黑名单。
- 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后链接就被记录下来,成为一个“陷阱”。
- 正文里非链接的文字的比例。现在采用两种page rank,一种是链接型网页,一种是内容型网页,链接型网页比较容易被判断当做spam,例如 hao123.com 。 |
|