html返回中的Phantomjs编码问题


Phantomjs encoding issue in html return

我正在使用phantomjs下载一个网页,w3m在php中编写html到txt,以获得完全相同的html,包括javascript

exec('phantomjs /sp.js http://www.testwebsite.de/test/ > site.html; w3m -dump site.html > texted.txt');

在过滤掉我想要的东西之后,我在函数中返回剩下的html。

当我在终端中输出我想要返回的数据时,它显示所有特殊字符,如德语变音符,但是当我在html中调用该函数时,特殊字符都是问号(显然编码问题)。我的网页有字符集=utf-8".

现在我经常用wget做这个过程,当网页上没有太多javascript生成的html时,没有问题。因为我现在正在工作的页面都是javascript生成的,我有点不得不依靠phantomjs,我不能修复编码问题…

nvm,

w3m -dump -o display_charset=UTF-8 input.html > output.txt 

解决…