网络爬行和robots.txt-II - Web crawling and robots.txt - II

Web crawling and robots.txt - II

本文关键字：txt-II robots 爬行网络 | 更新日期: 2023-09-27

与我之前的一个问题类似的场景：

使用wget，我键入以下内容从站点(子文件夹(下拉图像：
```
 wget -r -A.jpg http://www.abc.com/images/
```
我从上面的命令中得到了两个图像——Img1，Img2。
http://www.abc.com/images/中的index.php文件仅引用Img2.jpg(参见源代码(。
如果我输入http://www.abc.com/images/Img4.jpg或http://www.abc.com/images/Img5.jpg，我会得到两个独立的图像。
但是wget并没有下载这些图片。
我应该如何在http://www.abc.com/images/下检索整个图像集？

不确定你想要什么，但试试这个：

wget --recursive --accept=gif,jpg,png http://www.abc.com

这将：

然后，您可以删除除您感兴趣的目录之外的所有目录，即www.abc.com'images'

爬网所有页面是一项耗时的操作，但可能是确保您获得www.abc.com上任何页面引用的所有图像的唯一方法。没有其他方法可以检测中存在的图像http://abc.com/images/除非服务器允许浏览目录。