首页 标签robots.txt

认识“X-Robots-Tag”HTTP标头

认识“X-Robots-Tag”HTTP标头

一般情况,我们使用robots.txt文件来告知搜索引擎哪些文件/文件夹允许爬网或禁止爬网,还有X-Robots-Tag HTTP标头之类的东西,你知道吗?使用此功能对搜索引擎和网站服务器都有好处,通过禁止对网站某些不重要区域的爬网访问,可以减少服务器负载。 在继续之前,先了解一下robots.txt文件的作用。简单来讲,它的作用是告诉搜索引擎不要爬网网站上的特定页面,文件或目录等。 不建议通过robots.txt屏蔽整个网站,除非是一个非常私密的网站。 X-Robot...

robots.txt的正确用法

robots.txt的正确用法

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。 robots.txt应小写且放置在网站根目录 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。 如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定义的设置合并到根...