网络爬行和robots.txt-II


Web crawling and robots.txt - II

与我之前的一个问题类似的场景:

  1. 使用wget,我键入以下内容从站点(子文件夹(下拉图像

     wget -r -A.jpg http://www.abc.com/images/
    
  2. 我从上面的命令中得到了两个图像——Img1,Img2。

  3. http://www.abc.com/images/中的index.php文件仅引用Img2.jpg(参见源代码(。

  4. 如果我输入http://www.abc.com/images/Img4.jpghttp://www.abc.com/images/Img5.jpg,我会得到两个独立的图像。

  5. 但是wget并没有下载这些图片。

  6. 我应该如何在http://www.abc.com/images/下检索整个图像集?

不确定你想要什么,但试试这个:

wget --recursive --accept=gif,jpg,png http://www.abc.com

这将:

  1. 创建一个名为www.abc.com'的目录
  2. 爬网www.abc.com上的所有页面
  3. 将所有.GIF、.JPG或.PNG文件保存在www.abc.com'下的相应目录中

然后,您可以删除除您感兴趣的目录之外的所有目录,即www.abc.com'images'

爬网所有页面是一项耗时的操作,但可能是确保您获得www.abc.com上任何页面引用的所有图像的唯一方法。没有其他方法可以检测中存在的图像http://abc.com/images/除非服务器允许浏览目录。