TA的每日心情 | 开心 2021-12-13 21:45 |
---|
签到天数: 15 天 [LV.4]偶尔看看III
|
爬取网页时由于编码格式的问题,导致中文乱码,解决方法就是将原文件转码成latin1编码(使用encode函数) ,再解码成gbk编码(使用decode函数)
即可输出正确中文。
如下:
- 1 # coding:UTF-8
- 2
- 3 import requests
- 4
- 5 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
- 6 "Host":"www.dy2018.com"}
- 7
- 8 url=("https://www.dy2018.com/1/")
- 9
- 10 r = requests.get(url,headers=headers)
- 11
- 12 data = r.text.encode("latin1").decode("gbk") [b]###将原文件转码成latin1编码(使用encode函数) ,再解码成gbk编码(使用decode函数) [/b]13
- 14 with open("t1.txt","w",encoding="utf-8") as f:
- 15 f.write(data)
- 16 f.close
复制代码
|
|