在 DOMDocument->load(）上捕获 404 错误

Catch 404 error on DOMDocument->load()

本文关键字：错误 DOMDocument- load | 更新日期: 2023-09-27

我正在使用DOM加载一堆rss提要，有时一个人会404而不是生成文件。问题是Web服务器发送了一个html 404页面来代替预期的xml文件，因此使用以下代码：

$rssDom = new DOMDocument();
$rssDom->load($url);
$channel = $rssDom->getElementsByTagName('channel');
$channel = $channel->item(0);
$items = $channel->getElementsByTagName('item');

我收到此警告：

Warning: DOMDocument::load() [domdocument.load]: Entity 'nbsp' not defined

后跟此错误：

Fatal error: Call to a member function getElementsByTagName() on a non-object

通常，此代码工作正常，但是在我得到404的情况下，它无法执行任何操作。我尝试了围绕加载语句的标准尝试捕获，但它似乎没有捕获它。

您可以使用以下方法抑制解析错误的输出

libxml_use_internal_errors(true);

要检查返回的响应是否为 404，您可以在调用 DOMDocument::load() 后检查$http_response_header

例：

libxml_use_internal_errors(true);
$rssDom = new DOMDocument();
$rssDom->load($url);
if (strpos($http_response_header[0], '404')) {
    die('file not found. exiting.');
}

另一种方法是使用 file_get_contents 然后检查响应标头，如果不是 404，则加载带有 DOMDocument::loadXml 的标记。这将阻止DOMDocument分析无效的 XML。

请注意，所有这些都假定服务器在响应中正确返回 404 标头。

使用 file_get_contents 或 curl 手动加载 HTML（这允许您进行自己的错误检查），如果一切顺利，则将结果提供给 DOMDocument::loadHTML .

这里有很多curl的例子（例如，看看这个，尽管它肯定不是最好的）;要获取HTTP状态代码，您将使用curl_getinfo。

为了避免警告，您可以使用LIBXML_NOWARNING（注意：通常抑制警告不是一件好事）。

这里更重要的问题是致命错误：为避免这种情况，您应该检查文档是否已正确加载。为此，只需保存load()的返回值并 ise 即可：

$loaded = $rssDom->load($url, LIBXML_NOWARNING);
if($loaded){
    $channel = $rssDom->getElementsByTagName('channel');
    $channel = $channel->item(0);
    $items = $channel->getElementsByTagName('item');
}else{
    // show error-message or something like that
}

像这样：

$rssDom = new DOMDocument();
if($rssDom->load($url)) {
   $channel = $rssDom->getElementsByTagName('channel');
   $channel = $channel->item(0);
   $items = $channel->getElementsByTagName('item');
}

如果有人需要解决方案，这就像魅力一样工作：

$objDOM = new DOMDocument();
$loaded=@$objDOM->load(url);
if (!$loaded){
    //something went terribly wrong
} else {
    //this is going ok!!
}

这适用于我们通过"@"抑制警告，并且在出现错误时加载返回 true 或 false。

在 DOMDocument->load(） 上捕获 404 错误

Catch 404 error on DOMDocument->load()