提取电子邮件地址从Txt,PDf, Doc文件在谷歌驱动器


Extracting email address from Txt,PDf, Doc files in Google Drive

我在drive上有200多个文件——主要是文本、文档和pdf。我需要从中提取电子邮件地址,放入电子表格。

有没有一个脚本(Python, PHP?)可以让我的生活更轻松?

不,如果没有大量的代码,这似乎是不可能的。我个人会做的是打开谷歌文档中的每个文件,搜索@,然后一次复制一个(你必须找到多少封邮件?)。

如果你需要用python这样做,你将不得不下载所有的文件(用google drive很容易)。然后浏览每种文件格式,并对它们使用特定的方法。

对于文本,只需使用with open("filename") as file:读取每个文件并使用regex逐行搜索电子邮件。re.search .

pdf使用PyPDF,链接。

对于doc,首先将其转换为python可以使用catdoc打开的文件,然后将其作为文本打开。

如果你需要完全自动化这一切,你可能想看看web自动化包下载,或构建一个google drive/docs扩展与api。