限制 SimpleHtmlDOM 抓取的链接数量 - Limit number of links scraped by SimpleHtmlDOM

Limit number of links scraped by SimpleHtmlDOM

本文关键字：链接 SimpleHtmlDOM 抓取限制 | 更新日期: 2023-09-27

我想抓取新闻网站的链接，但我想限制我实际抓取的链接数量（例如，前 10 篇最新文章，而不是主页上的所有链接）。

我看到您可以对爬虫处于活动状态的字节数或时间设置限制，但也存在一个"itemcount"，一旦达到一定数量的项目（在此处找到），它就可以停止爬虫。然而，这是针对Scrapy的，它是基于Python的。

我正在使用简单的HTML DOM，所以PHP。有谁知道类似的事情吗？

或者，是否可以无限制地抓取链接并将其导入文件，然后从该文件中提取前 10 个链接？

如果对此有一个明显的答案，我很抱歉——我是一个绝对的业余爱好者，这是我的第一个小项目。

这是我正在使用的代码，不确定是否有帮助：

<?php
include_once('simple_html_dom.php');
$target_url = "https://www.example.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('div[class=article]') as $post)
{
$post->find('div[class=title]',0)->outertext = ";
echo $post."<br />";
}
?>

第一。您有语法错误

取代

$post->find('div[class=title]',0)->outertext = ";

跟

$post->find('div[class=title]',0)->outertext = "";

要限制它，没有 n 个项目，如果满足限制，只需突破foreach。

$limit = 10;
foreach($html->find('div[class=article]') as $i => $post)
{
  $post->find('div[class=title]',0)->outertext = "";
  echo $post."<br />";
  $i++;
  if($i++ >= $limit){
    break;
  }
}

就像@ElzoValugi建议的那样，这里的套房for更好。

$posts = $html->find('div[class=article]');
$limit = 10;
$limit = count($posts) < $limit ? count($posts) : $limit;
for($i=0; $i < $limit; $i++){
  $post = $posts[$i];
  $post->find('div[class=title]',0)->outertext = "";
  echo $post."<br />";
}

我发现simple_html_dom非常好和有用。实际上，您可以使用jQuery类型选择器获取元素。

如果你能找到所有新帖子的类，你可以运行这样的东西

$links = $html->find('a.<class name>').

或者你只想要 10 个前 10 个项目。

$links = $html->find('a:lt(10)'); // I have not tested it.
// Or 
$links = $html->find('a');
$count = count($links);
for($i = 10; $i < $count ; $i++){
    $links[$i]->remove();
}

这个包里还有很多东西。