从URL确定网站类型(博客与论坛与资源等)


Determine type of website from URL (blog vs. forum vs. resources etc)

我已经搜索了几个小时,似乎找不到任何接近它的东西。也许,我没有正确的搜索查询,所以我想我会在这里问:

情况我在mySQL数据库中有一个大约一千个URL的列表,这些URL都是混合类型的站点(博客/文章,论坛,资源页面,目录等)。我想获取这些 URL 并确定它是哪种类型的网站,而无需访问每个站点。有没有办法做到这一点?

我能想到的唯一可能的解决方案是搜索常见的URL结构,如/forums,/blog或子域,并以这种方式进行过滤。这样做的问题是,我将错过许多其他潜力,并且必须手动完成它们。

有没有人有任何创意或可能的资源/脚本可以提供更多信息?

首先在URL中搜索您提到的关键字。

接下来,如果没有找到,请使用strpos()之类的东西或页面内容的正则表达式进行站点搜索,您可以使用file_get_contents()轻松获得。 这可能会得到一些误报,如果博客提到论坛,很可能你只会搜索一组关键字,第一个结果将是要选择的关键字。 您也许可以从内容中获取更多信息,但它很快就会变得复杂。

更复杂的一个例子是,根据基本网址搜索管理界面,例如 www.example.com/wp-admin wordpress。