您好,匿名用户
随意问技术百科期待您的加入

python 爬网页时 unicode 和 utf-8的编码问题

0 投票

我爬的网页源码顶端写的是 <meta charset="utf-8">
我在浏览器打开源码看到我想要的信息也是中文,
不过在urllib2.urlopen(url).read()输出来的却是类似于
&#38472;&#39062;
这种unicode编码
然后我使用 .encode('utf-8')也没有效果。。
请问该怎么转成中文?
(我的python程序是coding:utf-8)

用户头像 提问 2013年 2月26日 @ Blitzcrank 上等兵 (358 威望)
分享到:

1个回答

0 投票
 
最佳答案
import HTMLParser 
h = HTMLParser.HTMLParser() 
print h.unescape("&#38472;&#39062;").encode("utf-8") 
陈颖
用户头像 回复 2013年 2月26日 @ Blitzcrank 上等兵 (358 威望)
提一个问题:

相关问题

0 投票
1 回复 23 阅读
用户头像 提问 2014年 1月27日 @ Ryze 上等兵 (293 威望)
0 投票
1 回复 53 阅读
用户头像 提问 2012年 12月1日 @ Tristana 上等兵 (285 威望)
0 投票
1 回复 51 阅读
用户头像 提问 2013年 10月10日 @ Kog'Maw 上等兵 (212 威望)
0 投票
1 回复 53 阅读
0 投票
1 回复 31 阅读

欢迎来到随意问技术百科, 这是一个面向专业开发者的IT问答网站,提供途径助开发者查找IT技术方案,解决程序bug和网站运维难题等。
温馨提示:本网站禁止用户发布与IT技术无关的、粗浅的、毫无意义的或者违法国家法规的等不合理内容,谢谢支持。

欢迎访问随意问技术百科,为了给您提供更好的服务,请及时反馈您的意见。
...