Nutch未对页面内容进行爬网


Nutch not crawling page content

我遇到了一个问题,无法从包含php表单内容的网站中抓取内容。我认为这就是问题所在,因为所有其他页面都在顺利抓取。我使用Nutch 1.11和Apache Solr 5.4.1将已爬网的文档编入索引。唯一得到索引的文本是菜单链接等的样板文本。整个文本永远不会被解析。
我目前只使用默认的配置来尝试这一点,除了那些允许在URL中执行php查询的配置,比如"?="接受除此之外的所有默认设置。如果有人能解释为什么会这样,我真的很感激,我似乎在网上找不到这是一个问题。
下面是一个我无法提取和解析正文的示例网站。https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我浏览了日志,上面说它解析了网址。它设法提取菜单文本,但没有提取任何主要内容。正如我所说,域上的所有其他页面都可以毫无问题地提取。

一般来说,默认情况下会忽略查询url,这是因为它们可能会对已爬网的网站造成严重影响(因为查询url通常是从数据存储/db动态生成的),为了解决这个问题,检查你为白名单放置正则表达式的文件,那里会有一条注释,明确表示接受的url模式,这需要更改以允许查询url(其中包含?的url)。

感兴趣的文件名为:REGEX-URLFILTER.TEXT

并且将具有:

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

中的内容

关于此事的有趣博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/-我不是的附属公司