正在提取动态<;标题>;标签


Extracting dynamic <title> tags with PHP

我使用以下(简化的)PHP脚本提取页面的<title>标记:

function getTitle($Url){
    $contents = file_get_contents($Url);    
    $titlePattern = "/'<title'>(.*)'<'/title'>/";    
       if (preg_match($titlePattern,$contents,$title) && strlen($title[1]) > 0){
            return $title[1];
    } else {
        return "No title found";
    }
}

现在这适用于大多数网站,但我遇到了一些问题。例如,当脚本获取内容时,这篇新闻文章具有空白的<title>标记。

这是它的弱点:当链接在Facebook上共享时,文章标题会显示为"Lollygaged:不可保险的等待Android更新-ReadWrite。"但如果我打印file_get_contents(),则找不到该字符串。

  1. 脸书从哪里获得了上述标题
  2. 有没有其他办法让我获得真正的头衔?(不需要逐个网站编写特定的脚本)

谢谢!

您提供的链接,在视图源中没有标题。它可能来自javascript。请查看您网站的来源。你会发现<title></title>

脸书并没有得到它真正的标题。