博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【爬虫】编码问题总结
阅读量:6228 次
发布时间:2019-06-21

本文共 335 字,大约阅读时间需要 1 分钟。

request返回的response出现乱码

直接出现乱码,是编码错误

res.encoding(encode)  # encode为指定的编码print(res.text)

这是由于直接赋予的编码不对。

出现\u559c\u6b22\u4e00\u4e2a等类似的unicode编码

print(res.content.decode("unicode-escape"))

需要解析unicode编码

出现&#x884c等以&#x开头的

import htmlprint(html.unescape(res.text))

&#x开头的是一种网页编码格式需要通过html解析

转载于:https://www.cnblogs.com/XD00/p/10626278.html

你可能感兴趣的文章
Linux下面监控系统性能的工具-vmstat
查看>>
Java Collection集合方法
查看>>
MySQL备份与恢复
查看>>
Linux---管理网络
查看>>
Can't load '/usr/lib/perl5/site_perl/5.8.5/i386-linux-thread-multi/auto/DBD/mysql/mysql.so&#
查看>>
Ubuntu下nagios安装pnp4nagios插件
查看>>
PMP考试心得
查看>>
mariadb 实用功能3 修改表结构显示进度
查看>>
HSRP/VRRP网关冗余协议
查看>>
2.3 salt 初始化系统
查看>>
python2.7 MySQLdb insert
查看>>
47.磁盘格式化
查看>>
ansible安装tomcat_msm
查看>>
PL/SQL笔记
查看>>
hadoop-2.7.4+hbase-1.3.1+zookeeper-3.4.9搭建分布式集群环境
查看>>
阿里云通用计算平台诚聘人才啦!
查看>>
数据库事务管理:掺杂使用entityDao和jdbcTemplate时的问题
查看>>
第一篇 群雄并起——文本编辑器的武林大会
查看>>
部署 Office Communications Server 2007 R2 Enterprise Edition-Part01
查看>>
C# 中的INotifyPropertyChanged和ObservableCollection<T>
查看>>