前言
网站设置好robots.txt十分地重要,会很大程度地影响搜索引擎对网站的爬取,因此,设置一个好的robots.txt成为必须的要求,有些小站就有因为没有设置好robots.txt而导致google搜索引擎抓不到本站内容。
设置步骤
其实设置robots.txt也不需要那么麻烦了,只要重要的后台不要被抓取就够了
typecho的后台是/admin/,所以,理论上只要不抓取这个目录就好了
本站的robots.txt,可以参考下面的代码:
User-agent: *
Disallow: /config.inc.php
Disallow: /admin/
Disallow: /var/
Disallow: /install/
Disallow: /install.php
Sitemap: https://www.91linux.org/baidu_sitemap.xml
禁止/admin/是最基础的,保护网站安全
而/var/含一些typecho关键运行文件,但一般不含有资源文件,因此可以放心禁用
/install/是网站的安装文件,一般安装完都会删掉这个目录,所以还是禁止了吧
最后一行sitemap是一个文件,可以帮助搜索引擎更好地抓取网站