TA的每日心情  | 开心 2021-12-13 21:45 | 
|---|
 
  签到天数: 15 天 [LV.4]偶尔看看III  
 | 
 
| 
 
 刚才翻了翻2年以前用python2.7写的一个爬虫程序,主要功能就是把各地市知识产权局/专利局网站的专利相关项目、课题通知,定期爬取和分析,辅助企业进行项目申请。  
这里要谈的不是爬虫功能的实现,而是今天重跑程序的时候发现,日志文件正常展现中文,但是终端展现的确实乱码。影响体验,着实比较郁闷。  
   
相关代码如下:  
1、python文件是utf-8编码  
2、使用logging模块记录日志,同步输出到app.log文件,和终端标准输出。  
3、使用了sys.setdefaultencoding的方式来解决乱码问题。  
   
  
 
- import sys
 - import logging
 - reload(sys)
 - sys.setdefaultencoding("utf8")  # @UndefinedVariable
 - cur_path = os.path.dirname(os.path.abspath(sys.argv[0]))
 - logging.basicConfig(level=logging.INFO,
 -                 #format="[%(asctime)s] [%(filename)s:%(lineno)d] %(levelname)s %(message)s",
 -                 format="[%(asctime)s] %(message)s",
 -                 datefmt="%Y-%m-%d %H:%M:%S, %a",
 -                 filename=cur_path+"/../log/app.log",
 -                 filemode="w")
 - #################################################################################################
 - # 定义一个StreamHandler,将INFO级别或更高的日志信息打印到标准错误,并将其添加到当前的日志处理对象#
 - console = logging.StreamHandler()
 - console.setLevel(logging.DEBUG)
 - formatter = logging.Formatter("[%(asctime)s] [%(filename)s:%(lineno)d] %(levelname)s %(message)s")
 - console.setFormatter(formatter)
 - logging.getLogger("").addHandler(console)
 - #################################################################################################
 
  复制代码 
  
   
标准输入是乱码:  
[2018-02-19 22:07:37,211] [app_main.py:100] INFO ++++++++++ 寮€濮嬪惎鍔ㄦ姄鍙栫▼搴?.. ++++++++++ 
[2018-02-19 22:07:37,217] [app_conf.pyo:70] WARNING 娌℃湁鎸囧畾瑕佺瓫閫夋柊闂荤殑璧峰鏃堕棿锛岄粯璁ら€夋嫨褰撴棩銆? 
[2018-02-19 22:07:37,224] [app_conf.pyo:73] WARNING 娌℃湁鎸囧畾瑕佺瓫閫夋柊闂荤殑缁撴潫鏃堕棿锛岄粯璁ら€夋嫨褰撴棩銆? 
[2018-02-19 22:07:37,227] [base_module.pyo:64] INFO ---------- 寮€濮嬫姄鍙栫綉椤靛唴瀹癸紝骞剁瓫閫夋柊闂荤粨鏋溿€?---------  
但是日志文件显示正常:  
[2018-02-19 22:07:37, Mon] ++++++++++ 开始启动抓取程序... ++++++++++  
[2018-02-19 22:07:37, Mon] 没有指定要筛选新闻的起始时间,默认选择当日。 
[2018-02-19 22:07:37, Mon] 没有指定要筛选新闻的结束时间,默认选择当日。 
[2018-02-19 22:07:37, Mon] ---------- 开始抓取网页内容,并筛选新闻结果。----------  
   
查了半天,终于发现棋差一招,使用logging记日志的时候,需要带中文的字符串前面再加上 u  
比如:  
  
  
  logging.info( 
  u"++++++++++ 开始启动抓取程序... ++++++++++ ") 
   
  
  
  
  logging.info( 
  u"本次抓取结束,总耗时:%d秒\n\n" % (end-start)) 
   
  
这样就完美解决标准输出乱码问题啦。  
  |   
 
 
 
 |