从搜索结果中隐藏上载的文件


Hide uploaded files from search results?

一个运行WordPress的客户端请求在其网站上开发以下功能。

他们希望从搜索结果中包括/排除通过WordPress媒体上传器上传的特定文件(通常是PDF)。

我猜这可以用robots.txt文件来完成,但我不知道从哪里开始。

有什么建议/想法吗?

这来自谷歌网站管理员开发者网站https://developers.google.com/webmasters/control-crawl-index/docs/faq

我的robots.txt文件中的更改需要多长时间才能影响我的搜索结果?

首先,必须刷新robots.txt文件的缓存(我们通常将内容缓存一天)。即使在发现更改后,爬网和索引也是一个复杂的过程,有时单个URL可能需要相当长的时间,因此不可能给出确切的时间表。此外,请记住,即使您的robots.txt文件不允许访问某个URL,该URL也可能在搜索结果中保持可见,尽管我们无法对其进行爬网。如果您希望加快删除您从谷歌屏蔽的页面,请通过谷歌网站管理员工具提交删除请求。

以下是来自谷歌的robots.txt的规范https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt

如果你的文件语法正确,最好的答案就是等到谷歌更新你的新机器人文件。

我不确定如何在WordPress的范围内做到这一点,但如果你想排除特定的文件类型,我建议使用X-Robots-Tag HTTP标头。对于PDF和非基于HTML的文件类型,它尤其适用于您通常想要使用robots标记的文件类型。

您可以为所有特定的FileType请求添加标头,然后设置NOINDEX值。这将阻止PDF被包括在搜索结果中。

如果URL以文件类型或文件类型特有的内容结尾,则可以使用robots.txt文件。示例:Disallow: /*.pdf$。。。但我知道URL并不总是这样。

https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag