无法让PHP接受来自一个漂亮的汤Python脚本的POUND符号


Cant get PHP to accept the POUND sign from a beautiful soup Python script

所以我有一个从事件网页提取信息的脚本。URL是这样的:http://everguide.com.au/melbourne/event/2012-jul-14/colour/

这个php脚本正在调用一个python脚本(它是for循环的一部分):

${"tmp" . $i} = utf8_encode (exec("python myscrape.py ${"eu" . $i}"));

它传递一个URL。python脚本是这样的:

# -*- coding: utf-8 -*-
import sys
URL = sys.argv[1]
#$URL = 'http://everguide.com.au/melbourne/event/2012-jul-14/colour/'
import urllib2
req = urllib2.Request(URL)
response = urllib2.urlopen(req)
html = response.read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html.decode('utf-8'))
soup.prettify()
import re

for node in soup.findAll(itemprop="name"):
    n = ''.join(node.findAll(text=True)) 
for node in soup.findAll(itemprop="url"):
    v = ''.join(node.findAll(text=True))
for node in soup.findAll("div", { "class" : "time" }):
    d = ''.join(node.findAll(text=True))
for node in soup.findAll("a", { "id" : "ctl00_holderBody_ctl00_lnkCat" }):
    c = ''.join(node.findAll(text=True)) 
vu = v
vu.encode('utf-8', 'xmlcharrefreplace')
re.escape(vu)
print n,"|", d,"|", vu,"|", c

它工作得很好,但只在VU之前返回到或管道-它不能超过这个!

UTF-8编码设置在所有文件、HTML和php上。

当V变量中有一个特殊字符时,它会中断并停止。如果没有特殊的角色,它可以完美地工作。

预期输出为:

Colour | 14 July @ 7:30PM | 1000 £ Bend | Clubs & Parties

当在服务器上运行脚本(使用相同的python命令)时,可以看到这个输出,但在PHP上,我无法重新获得Venue字符串!

请帮助

Rick

vu.encode返回编码字符串。。。由于您没有分配编码的结果,这只是被丢弃了。你试过吗

vu = vu.encode('utf-8', 'xmlcharrefreplace')

您还需要跳过转义,因为它会弄乱编码的unicode。