我需要刮几十个保存的html文档的名称和电子邮件地址


I need to scrape dozens of saved html documents for names and email addresses

好的,所以我有几十个html文件,里面都是网站的源代码,我需要抓取它们来找到名字和电子邮件地址。

代码有数百行,看起来像这样:

              <ul class="specialfaa-results">
                        <li >
                            <div class="summary-heading">
                                <h3 class="adviser-name">Mr Joe Bloggs </h3><p class="distance">0.1mi</p>
                                <div class="clearboth"></div>
                                <p class="adviser-company mod-content">Joe Bloggs Company Ltd</p>
                            </div>

                            <div class="full-profile mg-tp-10" style="display:none; margin-left:3px;">
                                <div class="mod-content">
                                    <div class="fl-lf yui3-u-1-3">
                                                  <div class="yui3-u adv-item adv-map">
                                                      <a href="#mapcontainer" class="showGoogle" lng="-1.9111053" lat="52.4771906" title="Business">
                                                      </a>
                                                  </div>
                                    </div>
                                    <div class="fl-lf yui3-u-2-5">
                                            <div class="yui3-u adv-item adv-email">
                                                <a href="mailto:joe.bloggs@hello.co.uk">mailto:joe.bloggs@hello.co.uk</a>
                                            </div>
                                        <div class="yui3-u adv-item adv-webpage">
                                            <a href="http://www.joebloggs.co.uk" 

我的想法是,我需要使用Python或excel隔离姓名和电子邮件地址。我打算有这些名字和电子邮件地址最后在一个excel文档的标题"姓名"("乔Bloggs")和"电子邮件地址"(joe.bloggs@hello.co.uk)。我应该使用什么样的代码或过程来获得这些?

谢谢你们了!对于这种事情和网站来说,这是相当新的,所以任何帮助都会非常感激。

休。

尝试使用regex提取电子邮件

使用regex从html中提取电子邮件

https://gist.github.com/dideler/5219706