爬网网站和动态URL


Crawling websites and dynamic urls

搜索引擎机器人会抓取我动态生成的URL吗?我指的是php基于url中的GET变量生成的html页面。链接看起来是这样的:

http://www.mywebsite.com/view.php?name=something
http://www.mywebsite.com/view.php?name=somethingelse
http://www.mywebsite.com/view.php?name=something

我已经尝试过用测试爬网程序对我的网站进行爬网,在这里可以找到:http://robhammond.co/tools/seo-crawler但它只访问过我的视图页面一次,并且在标题中只有一个变量。

我网站上的大部分内容都是由数据库中的这些GET变量生成的,所以我真的希望搜索引擎能抓取这些页面。

有些搜索引擎会这样做,有些则不然。谷歌确实包括动态生成的页面:https://support.google.com/webmasters/answer/35769?hl=en

请确保检查robots.txt文件,以确保您所做而不是希望爬网程序看到的文件被阻止,并且您所做想要索引的文件没有被阻止。

此外,请确保您想要索引的所有页面都通过其他页面链接,您有网站地图,或者向您想要索引网站的搜索引擎提交单独的URL。

是的,搜索引擎会抓取这些页面,假设他们能找到它们。最好的做法是在你的网站上创建指向这些页面的链接,特别是可以访问的,或者至少可以从主页浏览。