我正在使用phantomjs下载一个网页,w3m在php中编写html到txt,以获得完全相同的html,包括javascript
exec('phantomjs /sp.js http://www.testwebsite.de/test/ > site.html; w3m -dump site.html > texted.txt');
在过滤掉我想要的东西之后,我在函数中返回剩下的html。
当我在终端中输出我想要返回的数据时,它显示所有特殊字符,如德语变音符,但是当我在html中调用该函数时,特殊字符都是问号(显然编码问题)。我的网页有字符集=utf-8".
现在我经常用wget做这个过程,当网页上没有太多javascript生成的html时,没有问题。因为我现在正在工作的页面都是javascript生成的,我有点不得不依靠phantomjs,我不能修复编码问题…
nvm,
w3m -dump -o display_charset=UTF-8 input.html > output.txt
解决…