文本文件和字符集学习笔记
- 文本分成两种,一种叫做纯文本,还有一种叫做富文本
- 纯文本中只能保存单一的文本内容,无法保存内容无关的东西(字体、图片、颜色......)
- 富文本中可以保存文本以外的内容(word 文档)
- 在开发时,编写程序使用的全都是纯文本!
- 纯文本在计算机底层也会转换为二进制保存,
将字符转换为二进制码的过程,我们称为编码
将二进制码转换为字符的过程,我们称为解码
编码和解码时所采用的规则,我们称为字符集
- 常见的字符集:
ASCII
- 美国人编码,使用 7 位来对美国常用的字符进行编码
- 包含 128 个字符
IOS-8859-1
- 欧洲的编码,使用 8 位
- 包含 256 个字符
GB2312
GBK
- 国标码,中国的编码
Unicode
- 万国码,包含世界上所有的语言和符号,编写程序时一般都会使用 Unicode 编码
- Unicode 编码有多种实现,UTF-8(1-5 个字节表示字符) UTF-16(2-4 个字节表示字符) UTF-32(4 个字节表示字符)
- 最常用的就是 UTF-8
- 乱码
编写程序时,如果发现程序代码出现乱码的情况,就要马上去检查字符集是否正确
打赏: 微信
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。