使用正则表达式提取HTML标记之间的数据


Extracting data between HTML tags using regular expression

使用正则表达式在HTML标记之间提取数据

我有一个成功的例子,它从名称中获取值,并放入三个不同的数组

$str = '<ul>
<li><a name="valuehere1" title="titlehere" href="/channel/london/">Link1</a></li>
<li><a name="valuehere2" title="titlehere" href="/channel/games/">Link1</a></li>
<li><a name="valuehere3" title="titlehere" href="/channel/sport/">Link1</a></li>
</ul>';
preg_match_all('/<li><a name="(.*)" title/', $str, $m);
print_r($m);

我对下面的代码不感兴趣。我试图提取<ul class="statelist">(.*) </ul>标签之间的所有数据,但它只是返回两个空数组

$data = '<ul class="statelist">
                <li><a href="http://www.mymovingreviews.com/usa/alabama-movers-al-1">Alabama (45)</a></li>
                <li><a href="http://www.mymovingreviews.com/usa/alaska-movers-ak-2">Alaska (4)</a></li>
                <li><a href="http://www.mymovingreviews.com/usa/arizona-movers-az-3">Arizona (113)</a></li>                     
                </ul>';
preg_match_all('/<ul class="statelist">(.*) <'/ul>/', $data, $m);
print_r($m);

将s选项添加到正则表达式

preg_match_all('/<ul class="statelist">(.*) <'/ul>/s', $data, $m);
                                                              ^^^^ here

它将使正则表达式接受换行符(字符)。(参见文档)