Nutch未对页面内容进行爬网 - Nutch not crawling page content

Nutch not crawling page content

本文关键字：Nutch | 更新日期: 2023-09-27

我遇到了一个问题，无法从包含php表单内容的网站中抓取内容。我认为这就是问题所在，因为所有其他页面都在顺利抓取。我使用Nutch 1.11和Apache Solr 5.4.1将已爬网的文档编入索引。唯一得到索引的文本是菜单链接等的样板文本。整个文本永远不会被解析。
我目前只使用默认的配置来尝试这一点，除了那些允许在URL中执行php查询的配置，比如"？="接受除此之外的所有默认设置。如果有人能解释为什么会这样，我真的很感激，我似乎在网上找不到这是一个问题。
下面是一个我无法提取和解析正文的示例网站。https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我浏览了日志，上面说它解析了网址。它设法提取菜单文本，但没有提取任何主要内容。正如我所说，域上的所有其他页面都可以毫无问题地提取。

一般来说，默认情况下会忽略查询url，这是因为它们可能会对已爬网的网站造成严重影响（因为查询url通常是从数据存储/db动态生成的），为了解决这个问题，检查你为白名单放置正则表达式的文件，那里会有一条注释，明确表示接受的url模式，这需要更改以允许查询url（其中包含？的url）。

感兴趣的文件名为：REGEX-URLFILTER.TEXT

并且将具有：

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

中的内容

关于此事的有趣博客：https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/-我不是的附属公司