Python专题教程:字符串和字符编码

版本:v1.2.1

Crifan Li

摘要

本文是针对Python的中级开发人员,介绍Python中的字符串和字符编码方面的知识,主要包括Python 2.x的str和unicode以及Python 3.x的bytes和str,Python中常见字符编码和解码方面的错误及其解决办法,以及其他一些常见的字符串方面的处理,比如格式化为树形输出,HTML的Entity实体等等

[提示] 本文提供多种格式供:
在线阅读 HTML HTMLs PDF CHM TXT RTF WEBHELP
下载(7zip压缩包) HTML HTMLs PDF CHM TXT RTF WEBHELP

HTML版本的在线地址为:

http://www.crifan.com/files/doc/docbook/python_topic_str_encoding/release/html/python_topic_str_encoding.html

有任何意见,建议,提交bug等,都欢迎去讨论组发帖讨论:

http://www.crifan.com/bbs/categories/python_topic_str_encoding/

2015-05-26

修订历史
修订 1.2.1 2015-05-26 crl
  1. 把之前教程的地址整理过来
  2. 添加新帖子的链接
  3. 增加新的章节:总结

目录

前言
1. 本文目的
2. 前提
1. Python 2.x的str和unicode vs. Python 3.x的bytes和str
2. Python中常见字符编码和解码方面的错误及其解决办法
2.1. Python中的 UnicodeEncodeError
2.1.1. 如果打印显示终端中字符编码不支持所打印字符的话,也会出现错误UnicodeEncodeError
2.1.2. 在处理中文简体和中文繁体的的时候,使用目标编码中不存在的中文字符,也会导致UnicodeEncodeError
2.2. str的解码decode
3. Python中常见的字符串和编码等相关的处理
3.1. Python中的反斜杠u类型(\uXXXX)的字符串
3.2. Python中字符串的格式化
3.3. Python中处理HTML
参考书目

表格清单

2.1. ”电脑“和”電腦“所对应的Unicode值