广告联盟网

 找回密码
 注册
查看: 1255|回复: 0
打印 上一主题 下一主题

百度竟然采集搜狐的内容

[复制链接]
跳转到指定楼层
1#
发表于 2008-10-18 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
刘秀高今天在搜索的时候,无意中发现"小说"这个词排名第8的站,网站描述非常简单:“含各类小说作品,包括武侠、言情、玄幻等作品。”

    按常理来说,这种超级热门的词,站长应该懂点seo和简单的优化,不应该连网站的描述标签都写不好,这么简单。于是,我想是不是百度采用了DMOZ的网站描述,大家都知道Dmoz被多数主要搜索引擎所采用。但是到dmoz搜索了一下2100book.com,发现这个网站并没有被收录。

  然后我打开这个网站看了下,其主要标签写法如下:

<meta name="ROBOTS" content="NOODP">
<title>世纪文学小说网-玄幻小说,言情小说,网游小说,修真小说,武侠小说,网络小说 www.2100book.com</title>
<meta name="keywords" content="小说,玄幻小说,言情小说,网游小说,,修真小说,都市小说,武侠小说,网络小说,世纪文学">
<meta name="description" content="世纪文学为国内最大的小说网站之一,提供,玄幻小说,言情小说,网游小说,修真小说,都市小说,武侠小说,网络小说等在线阅读,永做更新最快,小说最多的小说网!">

描述标签并不是百度采用描述那样,有<meta name="ROBOTS" content="NOODP">这个标签,说明站长也以为百度是采用的ODP描述,所以加了这个代码,但是事实上却不是。然后我查看源文件,搜索了下 含各类小说作品,包括武侠、言情、玄幻等作品 这句话,发现页面上并没有。

   既然百度既没有采用网站写的描述,也没有抓取页面上的内容作描述,更不是dmoz的描述,那这句网站描述是怎么来的呢。

   于是,我到技术最强大的google搜索,google了一把, 搜索 "含各类小说作品,包括武侠、言情、玄幻等作品。",注意带双引号,意思是完整匹配,发现第一个结果就是小说文学搜狐分类目录,其他的就是一些小网站和个人博客了。百度当然不可能去采用哪些小网站的内容,唯一的可能就是采用了搜狐的分类目录。

    我再从这里选取了一些网站来百度搜索网站名字,发现百度的描述果然用的搜狐的。有个别不一样的,我推测可能是这个原因,百度只是一次抓取了搜狐的分类目录内容,并没有随之更新,而搜狐的分类是不断添加内容的,也就是说,描述不相同的网站是百度抓取搜狐分类目录的时候,还没有登陆进来。

    大家可以来测试下,看看我的推断是否准确。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|广告联盟网  

GMT, 2024-11-22 , Processed in 0.106663 second(s), 20 queries .

Powered by Discuz! X3.2

© 2005-2021 www.ggads.com GGADS 广告联盟网

快速回复 返回顶部 返回列表