如何禁止网络爬虫下载 PHP 代码


how to disallow a web crawler from downloading php code?

我在我的网站上运行了一个简单的网络爬虫,下载了整个网站的源代码。

是否可以阻止网络爬虫从您的网站下载/保存任何 php 代码? 如果没有加密,机器人中是否有简单的禁止规则.txt或者网络爬虫通常可以下载任何网站的整个源代码?

只要您从他们的网络位置访问页面,您应该没问题。对于那些困惑的人来说,提问者似乎正在运行自己的爬虫,并且因为它正在获取本地地址,所以它正在本地抓取文件。

因此,请确保它通过http访问它,以防止源代码被抓取。

特别是对于您的代码,在再次递归到函数之前,请检查您的域中的 url 是绝对的(以 http://domain.tld 开头),如果不是,则这样做(如果您网站上有相对 url,简单地添加它是行不通的,它会更复杂,考虑使用 PHP 将相对 url 更改为绝对。

网络爬虫仅下载网站的 html 内容。它无法访问您的 php 脚本。

如果你确保你有文件的.php扩展名,你的网站将在提供它时呈现PHP源代码,机器人将无法下载源代码。它只会看到PHP生成的HTML,就像访问该网站的其他人一样。