允许搜索引擎为文档编制索引,但只允许付费成员访问.可能的


Allow the search engines to index documents, but only allowed access to paid members. Possible?

我正在创建一个网站,该网站的管理员上传文档仅对该网站的付费成员可用。但我想要的是搜索引擎对文档进行爬网或索引,以便它出现在搜索引擎的搜索结果中。文档包括DOC、DOCX和PDF。

例如,我有一份文件,上面有这样的文字:"敏捷的棕色狐狸跳过了懒惰的狗"。现在有人谷歌的"棕色狐狸"。假设我有排名,我希望结果出现在谷歌的结果中。当用户点击它时,我希望用户降落在一个页面上,而不是文档上,那里有一个文本预览,其中有一个链接,可以成为查看完整文档的成员。

我计划在上传文档时将页面上文档的预览保存到数据库中。因此,它很容易被看到并且可以爬行。对于完整的文档,我只能允许对完整的文档进行爬网。但我认为,如果我允许搜索引擎爬行,那么我也会允许用户访问。如果我使用htaccess来阻止文档被直接访问,那么我也会关闭爬网程序。

我也考虑过提取所有文档文本并将其放入数据库,但我在某个地方读到,很难区分用户和蜘蛛,使用用户代理是个坏主意,因为它很容易被欺骗。

所以我很困惑我该怎么做。任何帮助都将不胜感激。提前谢谢!

否,不可能。任何用户都可以通过更改其用户代理来冒充搜索引擎。

您可以进行基于IP地址的限制,或基于启发式的检测,但很可能会意外地阻止爬网程序。

也许你应该给用户每天的免费页面浏览量,或者考虑一种不同的货币化方法。

最好的做法是允许您的页面的索引,以及相关的内容片段,对公众可见。

不要试图通过向用户代理提供特定内容来欺骗搜索引擎。用户可以很容易地绕过这一点,即使只是简单地使用搜索引擎的缓存功能或其他功能。专家交流会因此而臭名昭著。这些把戏不值得你花时间。

简而言之,对你的页面要诚实。为每个人显示一些,如果必须的话,只允许那些有帐户的人访问完整的内容。