如果发生以下情况,网络爬虫是否能够找到jpeg/图像?
- 页面使用 php
$_SESSION
作为密码保护。 - 在页面加载之前,网页会检查密码是否正确
$_SESSION
- 如果密码正确,页面将加载,加载 .jpeg
- 如果密码不正确
$_SESSION
则页面不会加载,而是执行METAREFRESH
使用if
状态...因此爬虫无法访问.jpgs
我不希望这些图像能够出现在谷歌/雅虎/必应/等图像搜索中。我已经阅读了很多关于SEO/机器人/爬虫的信息,但我不确定这一点。
这是对的吗?
Googlebot 无法在身份验证后抓取页面,尽管最好保护您的内容免受任何 SE 的影响,方法是在名为 robots.txt (http://www.robotstxt.org/) 的文件中创建一个拒绝列表,如果您的网站位于根目录上。在那里你可以指定页面不会爬。另外,将rel="no follow"放在任何链接中,将使SE不跟随链接,
如果页面使用存储在会话中的密码保护,则机器人/爬虫将找不到图像编号。
但这当然取决于您如何处理机器人,如果您不希望机器人窥探的会员区,我建议您向未经授权的客户端发送 302 响应,并在任何其他内容交付之前将它们传输到登录页面。
我想你的PHP密码保护页面只是"获取"这些图像的网址(可能是arbit或db存储的)
但是,如果有静态内容可以以其他方式访问(提供链接),那么网络爬虫最终会找到它。
我建议您使用机器人文件,指示网络爬虫忽略特定文件夹中的静态内容。