根据是否已看到筛选链接


Filtering links based on whether already seen

我正在构建一个简单的网络爬虫,并试图根据以前是否看到过链接来过滤链接。问题是,一个链接可能是相同的,但有一个正斜杠,自变量。我还想过滤掉收件人的邮件。有什么已知的、直接的方法可以做到这一点吗?我目前在pHp工作。

编辑:在查看以下内容后,我使用Net_URL2.php来规范URL:如何在PHP中应用URL规范化规则?

简单的答案是否定的,没有直接的方法。阅读一下这篇关于URL规范化的文章,找出难以实现这一点的一些原因。