好的,所以我有几十个html文件,里面都是网站的源代码,我需要抓取它们来找到名字和电子邮件地址。
代码有数百行,看起来像这样:
<ul class="specialfaa-results">
<li >
<div class="summary-heading">
<h3 class="adviser-name">Mr Joe Bloggs </h3><p class="distance">0.1mi</p>
<div class="clearboth"></div>
<p class="adviser-company mod-content">Joe Bloggs Company Ltd</p>
</div>
<div class="full-profile mg-tp-10" style="display:none; margin-left:3px;">
<div class="mod-content">
<div class="fl-lf yui3-u-1-3">
<div class="yui3-u adv-item adv-map">
<a href="#mapcontainer" class="showGoogle" lng="-1.9111053" lat="52.4771906" title="Business">
</a>
</div>
</div>
<div class="fl-lf yui3-u-2-5">
<div class="yui3-u adv-item adv-email">
<a href="mailto:joe.bloggs@hello.co.uk">mailto:joe.bloggs@hello.co.uk</a>
</div>
<div class="yui3-u adv-item adv-webpage">
<a href="http://www.joebloggs.co.uk"
我的想法是,我需要使用Python或excel隔离姓名和电子邮件地址。我打算有这些名字和电子邮件地址最后在一个excel文档的标题"姓名"("乔Bloggs")和"电子邮件地址"(joe.bloggs@hello.co.uk)。我应该使用什么样的代码或过程来获得这些?
谢谢你们了!对于这种事情和网站来说,这是相当新的,所以任何帮助都会非常感激。
休。
尝试使用regex提取电子邮件
使用regex从html中提取电子邮件
https://gist.github.com/dideler/5219706