[默认分类] 解决python3爬取网页（GB2312编码）中文乱码问题

TA的每日心情

	开心 2021-12-13 21:45

签到天数: 15 天

[LV.4]偶尔看看III

发表于 2020-8-17 16:02:38 | 显示全部楼层 |阅读模式

　　爬取网页时由于编码格式的问题，导致中文乱码，解决方法就是将原文件转码成latin1编码（使用encode函数），再解码成gbk编码（使用decode函数）
即可输出正确中文。
　　如下：

1 # coding:UTF-8
2
3 import requests
4
5 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
6 "Host":"www.dy2018.com"}
7
8 url=("https://www.dy2018.com/1/")
9
10 r = requests.get(url,headers=headers)
11
12 data = r.text.encode("latin1").decode("gbk") [b]###将原文件转码成latin1编码（使用encode函数），再解码成gbk编码（使用decode函数） [/b]13
14 with open("t1.txt","w",encoding="utf-8") as f:
15 f.write(data)
16 f.close

复制代码

GMT+8, 2026-6-29 00:04 , Processed in 2.016049 second(s), 37 queries .

Powered by Discuz! X3.4

		自动登录	找回密码
密码			立即注册

分布式高可用全栈开发微服务教程