网络爬虫是否会在 php 密码保护的页面中检测到这些 jpeg


Will web crawlers detect these jpegs in php password protected pages?

如果发生以下情况,网络爬虫是否能够找到jpeg/图像?

  1. 页面使用 php $_SESSION 作为密码保护。
  2. 在页面加载之前,网页会检查密码是否正确$_SESSION
  3. 如果密码正确,页面将加载,加载 .jpeg
  4. 如果密码不正确$_SESSION则页面不会加载,而是执行METAREFRESH使用if状态...因此爬虫无法访问.jpgs

我不希望这些图像能够出现在谷歌/雅虎/必应/等图像搜索中。我已经阅读了很多关于SEO/机器人/爬虫的信息,但我不确定这一点。

这是对的吗?

Googlebot 无法在身份验证后抓取页面,尽管最好保护您的内容免受任何 SE 的影响,方法是在名为 robots.txt (http://www.robotstxt.org/) 的文件中创建一个拒绝列表,如果您的网站位于根目录上。在那里你可以指定页面不会爬。另外,将rel="no follow"放在任何链接中,将使SE不跟随链接,

如果页面使用存储在会话中的密码保护,则机器人/爬虫将找不到图像编号。

但这当然取决于您如何处理机器人,如果您不希望机器人窥探的会员区,我建议您向未经授权的客户端发送 302 响应,并在任何其他内容交付之前将它们传输到登录页面。

我想你的PHP密码保护页面只是"获取"这些图像的网址(可能是arbit或db存储的)

但是,如果有静态内容可以以其他方式访问(提供链接),那么网络爬虫最终会找到它。

我建议您使用机器人文件,指示网络爬虫忽略特定文件夹中的静态内容。