扫描整个网站';s页中的一段代码


Scanning a whole website's pages for a piece of code

我正在运行一项服务,该服务涉及网站所有者必须将一段代码放在他们的网站上。它在哪一页上并不重要。

我正在寻找一种使用PHP来检查给定网站URL的页面是否有一段代码的方法。有人能给我指正确的方向吗?

我知道如何扫描给定URL的页面,但我需要一种用PHP收集所有页面URL的方法,并在每个页面上搜索一行代码。

谢谢!:)

这可以像cURL获取HTML和strpos()查看HTML中是否存在特定字符串一样简单。

然而,这确实存在问题!如果你需要人们放置一个链接或其他什么东西,那么稍后只需设置display:none就可以很容易地用CSS隐藏该元素。要绕过这一点,您需要更高级的东西来实际检查项目的存在性和可见性。PhantomJS可以用于此。

现在,当人们想使用缩小版或以其他方式修改HTML,同时保持添加链接的精神时,会发生什么?我建议不要寻找确切的HTML,而是检查你真正想要的东西。。。例如到您的网站的反向链接。在任何情况下,都可以使用DOM解析器来帮助解决这个问题。

您需要解析每个页面的DOM,搜索任何链接,然后扫描这些URL。一定要跟踪哪些页面已经扫描过,哪些页面需要扫描,否则你会陷入无限循环。您还应该设置一个延迟,否则您可能会直接在一个请求之后发送数百个请求,从而很容易使服务器不堪重负。

SimpleHTMLDom给出了一个解析链接的例子。

相关文章: