如何在网站目录中查找文件


How to find files in website directory?

我正在创建一个网络爬虫。我给它一个URL,它会扫描目录和子目录中的.html文件。我一直在考虑两种替代方案:

  1. CCD_ 1。这适用于本地文件,但不适用于http网站。这是因为文件权限吗?我猜这不应该起作用,因为每个人都可以访问你的网站文件是危险的。

  2. 搜索链接并关注它们。我可以在索引文件上执行file_get_contents,找到链接,然后跟随它们进入它们的.html文件。

这两种方法中的任何一种有效吗?或者还有第三种选择吗?

查找html文件的唯一方法是通过解析服务器返回的文件内容,除非他们在服务器上启用了目录浏览,这是通常首先禁用的功能之一,否则您无法浏览目录列表,只能访问他们准备向您显示的内容,并允许您使用。

你必须开始http://www.mysite.com然后继续扫描到html文件的链接,如果他们有asp/php或其他文件,然后返回html内容呢?

您是否考虑过使用wget?它可以抓取网站,只下载具有特定扩展名的文件。