光年论坛-做科学的SEO与PPC

 找回密码
 注册

用新浪微博连接

一步搞定

QQ登录

只需一步,快速开始

搜索
查看: 4455|回复: 58

【搜索引擎不会告诉你的关于robots的潜规则】   [复制链接]

Rank: 7Rank: 7Rank: 7

专业度
355
金币
1114
注册时间
2011-1-1
发表于 2011-5-14 15:05:56 |显示全部楼层
本帖最后由 pollux 于 2011-5-14 15:09 编辑


     (当你被我的标题吸引到的时候,我非常愉快,这意味着,你进来可能会给我一些金币和专业度评分,使我可以早日用上光年日志分析软件vip版。)

      在http://www.gnbase.com/thread-1949-1.html这个帖子里,发现有人跟我一样对iis下面目录大小写导致的抓取问题非常头疼,不过我是曾经很头疼,而这位兄弟还在头疼。通过robots文件可以解决这个大小写抓取的问题。所以我写下这篇文章,告诉大家一些搜索引擎官方可能未必告诉我们的你的关于robots的潜规则。

在所有meta标签中,专门有一类是指导机器人如何处理抓取后的页面,如何追踪页面上的链接的。描述这种信息的meta标签被称为robotsmeta标签(robots meta tag),它就是本文的主角。


          Robots
文件是我们与搜索引擎对话的最重要渠道

      为什么meta信息有这么多种类,我们却从来没有在网页上看到过它们呢?因为meta标签的内容在浏览器上是不显示的。绝大部分的meta信息是写给搜索引擎看的,用于帮助搜索引擎判断页面的价值、重要性。

作为网页设计者和搜索引擎交流的一个重要渠道,各种meta标签提供了从不同角度描述页面的基础信息,而机器人在访问网页时也会首先读取这个部分。

       关于robots基础阅读:

http://www.baidu.com/search/robots.html

http://www.robotstxt.org/robotstxt.html

http://www.google.com/support/webmasters/bin/answer.py?Hl=cn&answer=156449

            Ps,顺便说一句,robots文件nofollow的确是收录利器。无图无真相,


《剩下的接下文》

通过提升收录质量和相关性处理处理后的结果

通过提升收录质量和相关性处理处理后的结果
已有 22 人评分金币 专业度 收起 理由
后知 + 5
风有点大 + 5 + 3 感谢您写出这么好的文章
yaojinghua + 5 很给力!
walkerspeed + 5 赞一个!看到最后一图怎么也得加上分
yiawy + 5 赞一个!
蓝色风暴 + 5
SEO风云再起 + 1 内容相当不错
就是这么傻 + 5 + 3 收藏了。给分,给专业
yaluba + 5
caizeng + 3 + 2
sherwin + 5
mailtobob + 3 + 3
seosoon + 3 + 2
lbw1215 + 5 + 3
李让 + 5 + 3
seo萌 + 5 + 3 来学习了。
doweld + 5 + 3 谢谢解答
瑞森 + 5 + 3
ydt0301 + 5 + 3
catwell + 5 + 3
huxingyu + 5 + 3 有图有真相..
devante + 5 + 3 不加分睡不着觉

总评分: 金币 + 100  专业度 + 40   查看全部评分



使用道具 举报

Rank: 7Rank: 7Rank: 7

专业度
355
金币
1114
注册时间
2011-1-1
发表于 2011-5-14 15:06:37 |显示全部楼层
本帖最后由 pollux 于 2011-5-14 15:22 编辑

  绝大部分 spider 能够识别的是以下几种:

  • noindex -【页面会被抓取,但在被google的后台系统分析完以后会被丢弃,不会进入google的索引排序,对用户而言也就不会出现在搜索结果中】
  • nofollow -【禁止googlebot追踪页面上的一切链接(阻止访问)。(与meta级别的nofollow不同的是, link级别里的nofollow只会阻止robot追踪单条链接)】
  • noarchive -【禁止在搜索结果中显示该页面的快照】
  • nosnippet -【禁止在搜索结果的网页链接下显示内容摘要,同时阻止搜索引擎产生该页面的快照】
  • noodp -【在搜索结果的页面摘要部分屏蔽open directory project对该页面的描述】
  • none -【等同于同时使用noindex和nofollow两个参数】

  robots文件的使用,有很多特别需要注意的,甚至很多知识点甚至搜索引擎本身都没有给出详尽的说明或者是使用方法。在参阅了大量的资料和结合自身的一些尝试,本文将重点说明下,一些在对robots文件进行处理的过程中需要特别注意的潜规则:

一不允许出现多条user-agent的记录
一份“/robots.txt”文档中不允许出现多条包含“user-agent: *”的记录(但允许没有此记录)。

二- spider名字的大小写问题
大多数搜索引擎的spider在读取user-agent值的时候都是忽略大小写,既Googlebot和googlebot应该都能被google识别。但是,我在学习淘宝seo的时候也发现,或许为了保险起见,淘宝的工作人员在自己的“/robots.txt”里面分别写了“user-agent: baiduspider”和“user-agent: baiduspider”两条。(参见:http://www.taobao.com/robots.txt)

三、allow和disallow的顺序
大部分情况下,想要兼容所有的机器人,就应当将allow指令放在disallow指令的前面,例如:
Allow: /a/b.html
Disallow: /a/
这会阻止对"/a/"内除了"/a/b.html"以外一切内容的检索,因为后者是优先匹配成功的。虽然对于google和百度来说,先后顺序并不重要。但是不排除会导致其他搜索引擎出现抓取问题。

四、allow与disallow的角力
如果allow指令中的地址同disallow指令中的地址相比具有相同或更多字符(意味着allow指令所描述的地址更“深”、更“具体”)的话,虽然disallow指令也能匹配,但allow指令仍然会“获胜”(这样就达到开放子文件夹的目的了,同时没被allow的部分依然不会被检索)。

五、反斜杠“/”的意义
反斜杠“/”表示禁止搜索引擎进入该目录。
User-agent: spider
Disallow: /a
对这样的记录机器人该怎么反应?按照res标准,机器人会将名为“a”的文件和名为“a”的目录都disallow。当然,比较符合逻辑切清晰的写法是使用“/”来标识所声明的路径:
Disallow: /a/
注意不要忘记“a”前面的“/”

六、在指示行末尾加注的问题

在“/robots.txt”文件中,凡以“#”开头的行,均被视为注解内容,这和unix中的惯例是一样的。例如:
Disallow: /cgi-bin/ # this bans robots from our cgi-bin

七、尽量不要在一行的前面出现空格,如“ disallow: /”《很多人非常不小心,空格就没了》
Res标准并未对这种格式予以特别说明,但和上面一个问题一样,可能导致某些机器人无法正确解读。

八.文件目录区分大小写(这个或许是困惑大多数人的)
虽然res标准忽略大小写(case insensitive),但目录和文件名却是大小写敏感的。所以对于"user-agent"和"disallow"指令,用大小写都是可以的。但对于所声明的目录或文件名却一定要注意大小写的问题。例如:
Disallow: /abc.htm
      会拦截“http://www.example.com/abc.htm”

      却会允许http://www.example.com/Abc.htm
所以在IIS服务器可能出现的 诸多 大小写目录问题,可以通过此方法得到圆满解决。


九、如果页面中包含了多个同类型meta标签,spider会累加内容取值
对于下面两条语句来说:
<meta name="robots" content="noindex" />
<meta name="robots" content="nofollow" />
搜索引擎将会理解成:
<meta name="robots" content="noindex, nofollow" />

十当内容取值冲突的时候,google和百度等大多数搜索引擎会采纳限制性最强的参数
例如,如果页面中包含如下meta标签:
<meta name="robots" content="noindex" />
<meta name="robots" content="index" />
Spider会服从noindex的取值。

十一.如果你既用了robots.txt文件又用了robots meta标签
当二者出现冲突,googlebot会服从其中限制较严的规则
如果你在robots.txt中阻止了对一个页面的检索,googlebot永远不会爬到这个页面,因此也根本不会读到这个页面上的meta标签。 如果你在robots.txt里面允许了对一个页面的检索,却在meta标签中禁止了这一行为,googlebot会到达这个页面,在读到meta标签后终止进一步的检索行为。

   当然关于robots文件的使用,还有更多等待大家的挖掘和分享。
推荐阅读 SEO案例:锚文本、关键字、nofollow、Web标准化

点评

Seo66  “user-agent: baiduspider”和“user-agent: baiduspider”两条 这的百度分别是Baidu 和baidu ..注意大小写  发表于 2011-11-4 23:02:11
llsilver  关于nofollow有个疑问,如果一个页面中有多个a.html页面,我将其中一个nofollow,剩下的a.html蜘蛛还会跟踪麽?  发表于 2011-7-24 10:14:05
已有 15 人评分金币 专业度 收起 理由
tangjizeng + 5 很详细啊,楼主敬业啊
小白 + 5 很详细
可爱你 + 3 很给力!
邹绍军 + 5 我很赞同
skye + 5
SOSSEO + 5 + 3
longchina + 5 + 3
蓝仁 + 5 + 3 第十一点是亮点~
hdseo + 5 + 3
Cavin + 5 + 3
宇宙弦 + 5 + 3 应该加到二楼才对。楼上的那些,呵呵
zhipeng + 5 + 3
zmq9999 + 5 + 3
菠菜 + 5 + 3 嗯 支持
kent + 5 + 3 有用的知识

总评分: 金币 + 73  专业度 + 30   查看全部评分



使用道具 举报

Rank: 7Rank: 7Rank: 7

专业度
355
金币
1114
注册时间
2011-1-1
发表于 2011-5-14 15:12:27 |显示全部楼层
排版太不给力


使用道具 举报

Rank: 7Rank: 7Rank: 7

专业度
631
金币
6290
注册时间
2010-12-31
发表于 2011-5-14 17:39:58 |显示全部楼层
给你加分了,可以早点拿到光年分析软件VIP版了,呵


使用道具 举报

Rank: 3Rank: 3

专业度
564
金币
2578
注册时间
2010-12-31
发表于 2011-5-15 10:43:14 |显示全部楼层
附上一个robots.txt文件的在线检测地址
http://tool.motoricerca.info/robots-checker.phtml
需要注意的是Googlebot支持通配符
其他蜘蛛可能不支持


使用道具 举报

Rank: 2

专业度
1
金币
314
注册时间
2011-4-22
发表于 2011-5-15 11:54:35 |显示全部楼层
这个图看了给力


使用道具 举报

Rank: 3Rank: 3

专业度
27
金币
2019
注册时间
2011-1-19
发表于 2011-5-15 19:18:34 |显示全部楼层
我想问下 “res标准”是神马?


使用道具 举报

Rank: 7Rank: 7Rank: 7

专业度
355
金币
1114
注册时间
2011-1-1
发表于 2011-5-15 19:52:59 |显示全部楼层
本帖最后由 pollux 于 2011-5-15 19:54 编辑

res标准 既所谓的拒绝Robots访问标准”(Robots Exclusion Standard) 出自《Robots.txt 协议标准》

原文http://www.robotstxt.org/orig.html


使用道具 举报

Rank: 1

专业度
0
金币
113
注册时间
2011-3-31
发表于 2011-5-16 21:48:15 |显示全部楼层
通过提升收录质量和相关性处理  这句话能否说深一些,具体的操作方法,谢谢


使用道具 举报

VIP会员

老杜

Rank: 3Rank: 3

专业度
712
金币
12494
注册时间
2011-1-2
发表于 2011-5-19 15:28:23 |显示全部楼层
回复 pollux 的帖子

规则说的应该是我到目前为止看到的最细的了~


使用道具 举报

Rank: 2

专业度
0
金币
329
注册时间
2011-5-18
发表于 2011-5-19 15:32:03 |显示全部楼层
非常好
我用robots.txt都很简单,没有用的这么深


使用道具 举报

Rank: 1

专业度
0
金币
20
注册时间
2011-3-7
发表于 2011-5-19 17:49:55 |显示全部楼层
嗯~~这个值得好好琢磨琢磨


使用道具 举报

Rank: 2

专业度
-2
金币
2476
注册时间
2011-4-6
发表于 2011-5-22 13:46:37 |显示全部楼层
通过某些robots文件可以达到搜寻管理后台的目的。。。。。
所以中小企业站在帐号和密码保护方面要加强啊。。

谢谢楼主。


使用道具 举报

Rank: 2

专业度
13
金币
731
注册时间
2011-1-4
发表于 2011-5-23 13:55:36 |显示全部楼层
谢谢楼主分享


使用道具 举报

Rank: 3Rank: 3

专业度
200
金币
4244
注册时间
2011-5-23
发表于 2011-5-23 17:04:11 |显示全部楼层
分析的太详细了,这是我第一次看到这么详细的robots分析,强大


使用道具 举报

Rank: 2

专业度
5
金币
1080
注册时间
2011-2-20
发表于 2011-5-23 17:53:04 |显示全部楼层
这篇很给力


使用道具 举报

Rank: 2

专业度
95
金币
1217
注册时间
2011-4-29
发表于 2011-7-23 14:18:15 |显示全部楼层
确实说的很详细,好文!


使用道具 举报

Rank: 2

专业度
8
金币
110
注册时间
2011-6-23
发表于 2011-7-23 14:43:39 |显示全部楼层
写的不错,前面部分能改进下更好


使用道具 举报

Rank: 2

专业度
26
金币
465
注册时间
2011-6-21
发表于 2011-7-24 00:05:05 |显示全部楼层
楼主辛苦了!


使用道具 举报

Rank: 1

专业度
1
金币
58
注册时间
2011-1-7
发表于 2011-7-24 16:18:34 |显示全部楼层
分析的很透彻,很有用,赞一个


使用道具 举报

您需要登录后才可以回帖 登录 | 注册

Archiver|光年论坛 ( 浙ICP备09079256号-2 )  

GMT+8, 2012-5-18 12:44 , Processed in 0.036693 second(s), 18 queries , Gzip On, Apc On.

Powered by  杭州光年信息技术有限公司.

© 2010-2011 版权所有,所有帖子的转载请注明出处.

回顶部