Web crawling and robots.txt


Web crawling and robots.txt

我使用wget"下载"了一个网站。

wget-rhttp://www.xyz.com

i) 它返回一个.css文件、一个.js文档、index.php和一个图像img1.jpg

ii)然而,xyz.com下有更多的图像。我键入了www.xyz.com/Img2.jpg,因此键入了

得到了一个图像。

iii)但是index.php指的是单个图像,即img1.jpg.

iv)附带一个机器人文件,其中包含不允许:

应该在命令行中进行哪些更改以返回xyz.com下的所有非的内容

index.php中引用,但在目录中是静态的。

不可能。wget应该如何了解目录中的其他文件,除非您有指向该文件的链接?