我不是程序员,我只是发现这个网站适合问我的问题,所以请尽量帮助我,就像你在帮助初学者一样。(但是我对C,PHP和HTML略知一二(
这是我的问题
我已经将网页的源代码保存在例如"source.txt"文件中,现在我想找到文本中放置在<h4>
和</h4>
之间的所有单词。 我需要一个命令来打开"source.txt",然后查找这两个短语之间的单词并将每个单词保存在不同的行中,最后将它们保存在例如"result.exe
例如,我有:
<h4>Barton Fink</h4></a>what is your name<br /><h4>Flyer123</h4></a>my name is pimp<br /><h4>mr.jaghi</h4></a>LoL<br />
我希望我的输出是:
巴顿·芬克
传单 123
贾吉先生
当然,在短代码中手动完成它很容易,但就我而言,这是一个很长的页面,需要过滤的单词超过数千个
顺便说一句,我使用 Windows 平台,请告诉我一种使用 cmd 的方法,如果可能的话,或者如果没有告诉我最简单的方法
可以如下所示,在 PowerShell 中使用正则表达式。
[regex]::Matches((Get-Content source.txt), "<h4>(.+?)</h4>") | foreach{$_.Groups[1].Value} | OUt-File -FilePath "result.txt"