我正在使用PHP构建搜索引擎和网络爬虫,我想检测网站的语言,我将如何通过以下方式检测页面的语言:
- 检查网址是否有 https://twitter.com/?lang=jap
如果未设置,那么我想: - 检查网址 https://www.google.co.jp/
如果我仍然找不到任何东西,那么我会将默认值设置为英语
到目前为止,我用于抓取页面的代码是:
function crawl($url){
$html = file_get_html($url);
if($html && is_object($html) && isset($html->nodes)){
$weblinks[]=$url;
foreach($html->find('a') as $element) {
global $weblinks;
$link = $element->href;
$base_url = parse_url($url, PHP_URL_HOST);
if(substr($link,0,7)=="http://"){
$link = $link;
}else if(substr($link,0,8)=="https://"){
$link = $link;
}else if(substr($link,0,2)=="//"){
$link = substr($link, 2);
}else if(substr($link,0,1)=="#"){
$link = $html;
}else if(substr($link,0,7)=="mailto:"){
$link = "";
}else if(substr($link,0,11)=="javascript:"){
$link = "";
}else{
if(substr($link, 0, 1) != "/"){
$link = $base_url."/".$link;
}else{
$link = $base_url . $link;
}
}
if(substr($link, 0, 7) != "http://" && substr($link, 0, 8) != "https://" && $link != ""){
if(substr($url, 0, 8) == "https://"){
$link = "https://".$link;
}else{
$link = "http://".$link;
}
}
if(!in_array($link, $weblinks)){
$weblinks[]=$link;
}
}
$html->clear();
}else{
}
}
function info($weblinks){
foreach($weblinks as $link) {
$linkhtml = file_get_html("$link");
if($linkhtml && is_object($linkhtml) && isset($linkhtml->nodes)){
$titleraw = $linkhtml->find('title',0);
$title = $titleraw->innertext;
$des = $linkhtml->find("meta[name='description']",0)->content;
//detect language here
echo "<tr><td>".$title."</td><td>".$link."</td><td>".$des."</td></tr>";
$sql = mysql_query("INSERT into web once");
$title = "";
$des = "";
$linkhtml->clear();
}
}
}
要从?lang=
获取语言:
$url = 'www.domain.org?lang=IT';
$url_parts = parse_url($url);
$lang = parse_str($url_parts['lang']);
然后,您应该使用 switch/case 语句和支持的语言列表来验证这一点,如下所示:
switch ($lang) {
case 'EN':
//language is English
break;
case 'IT':
//language is Italian
break;
case 'FR':
//language is French
break;
default:
//?lang query was empty, or contained an unsupported language
$lang = FALSE;
} //end switch
之后,您可以使用此逻辑来确定是否需要检查语言的 URL:
if ($lang == FALSE) {
//code to determine language from TLD
}
希望这能帮助你入门,尽管这是你打开的一大罐蠕虫。除了您提到的内容之外,您还需要检查其他事项,以确定网站的语言。其中之一是语言元标记,如下所示:<meta name="language" content="english">
并进入网页的头部,尽管并非所有网站都使用它。
一些多语言网站,比如我的网站,使用子域名,如http://it.website.com
或http://fr.website.com
其他人使用与 ?lang=
不同的查询字符串。因此,您需要进行大量研究以涵盖所有基础。