博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
解决xpath中文乱码
阅读量:5242 次
发布时间:2019-06-14

本文共 805 字,大约阅读时间需要 2 分钟。

利用xpath建标签树以后,虽然提高了元素匹配效率,但是etree会把中文转为ASCII码,所以简单地tostring以后会有乱码。

解决方法:

import requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreeheaders = {    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.2 Safari/605.1.15',}def get_one_page(url, headers):    try:        response = requests.get(url, headers=headers)        if response.status_code == 200:            response.encoding = response.apparent_encoding            return response.text        return None    except RequestException:        return Nonetree = etree.HTML(html)aim = tree.xpath(exp)for i in aim:    content = etree.tostring(i, encoding='utf-8', pretty_print=True, method="html").decode('utf-8')

 

转载于:https://www.cnblogs.com/Rhythm-/p/11374832.html

你可能感兴趣的文章
redis cli命令
查看>>
阿里云容器镜像加速器配置
查看>>
Problem B: 占点游戏
查看>>
css3基础篇二
查看>>
进程间的八种通信方式----共享内存是最快的 IPC 方式
查看>>
DPDK初始化流程
查看>>
MEF: MSDN 杂志上的文章(14) 稳定的组合
查看>>
python常用模块之sys, os, random
查看>>
HDU 2548 A strange lift
查看>>
Linux服务器在外地,如何用eclipse连接hdfs
查看>>
react双组件传值和传参
查看>>
BNU29140——Taiko taiko——————【概率题、规律题】
查看>>
POJ 2289——Jamie's Contact Groups——————【多重匹配、二分枚举匹配次数】
查看>>
java 得到以后的日期
查看>>
[Kaggle] Sentiment Analysis on Movie Reviews
查看>>
python安装easy_intall和pip
查看>>
HDU1004
查看>>
MySQL高速缓存
查看>>
DropdownList绑定的两种方法
查看>>
价值观
查看>>