Web crawling and robots.txt - Web crawling and robots.txt

我使用wget"下载"了一个网站。

wget-rhttp://www.xyz.com

i）它返回一个.css文件、一个.js文档、index.php和一个图像img1.jpg

ii）然而，xyz.com下有更多的图像。我键入了www.xyz.com/Img2.jpg，因此键入了

得到了一个图像。

iii）但是index.php指的是单个图像，即img1.jpg.

iv）附带一个机器人文件，其中包含不允许：

应该在命令行中进行哪些更改以返回xyz.com下的所有非的内容

在index.php中引用，但在目录中是静态的。

不可能。wget应该如何了解目录中的其他文件，除非您有指向该文件的链接？