在大型文本文件中查找并保存2个特定短语之间的所有单词


Find and save all words between 2 specific phrase in a large text file

我不是程序员,我只是发现这个网站适合问我的问题,所以请尽量帮助我,就像你在帮助初学者一样。(但是我对C,PHP和HTML略知一二(

这是我的问题

我已经将网页的源代码保存在例如"source.txt"文件中,现在我想找到文本中放置在<h4></h4>之间的所有单词。 我需要一个命令来打开"source.txt",然后查找这两个短语之间的单词并将每个单词保存在不同的行中,最后将它们保存在例如"result.exe

例如,我有:

<h4>Barton Fink</h4></a>what is your name<br /><h4>Flyer123</h4></a>my name is pimp<br /><h4>mr.jaghi</h4></a>LoL<br />

我希望我的输出是:

巴顿·芬克

传单 123

贾吉先生

当然,在短代码中手动完成它很容易,但就我而言,这是一个很长的页面,需要过滤的单词超过数千个

顺便说一句,我使用 Windows 平台,请告诉我一种使用 cmd 的方法,如果可能的话,或者如果没有告诉我最简单的方法

可以如下所示,在 PowerShell 中使用正则表达式。

[regex]::Matches((Get-Content source.txt), "<h4>(.+?)</h4>") | foreach{$_.Groups[1].Value} | OUt-File -FilePath "result.txt"