UTF-8编码Tag:
Linux下utf-8 BOM 文件的检查与删除
当源程序是 gbk 格式,你转换为 utf8 的时候,很多情况是头部会出现 bom,如果是 php 代码,这样会出现很多意想不到的事情,那怎么办呢,你可以用 linux 命令来查找,然后对文件的 bom 进行删除。
[shell]
grep -r $'\xef\xbb\xbf' * |grep .php
[/shell]
bom:UTF-8签名(UTF-8 signature)也叫做BOM(Byte Order Mark)
查询BOM:
[shell]
:... [阅读全文]
About字符编码
打开"记事本"程序Notepad.exe,新建一个文本文件,内容就是一个"严"字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存。
然后,用文本编辑软件UltraEdit中的"十六进制功能",观察该文件的内部编码方式。
1)ANSI:文件的编码就是两个字节"D1 CF",这正是"严"的GB2312编码,这也暗示GB2312是采用大头方式存储的。
2)Unicod... [阅读全文]
关于Python脚本开头coding-utf-8的作用
JavasBoy | Python | 2014-03-12
关于Python脚本开头 # -*- coding: utf-8 -*- 的作用
1 指定文件编码类型
[python]
#!/usr/bin/python
[/python]
是用来说明脚本语言是python的是要用/usr/bin下面的程序(工具)python,这个解释器,来解释python脚本,来运行python脚本的。
推荐使用下面这个
[python]
#!/usr/bin/env python
[/python]
2 # -*- coding: utf-8 ... [阅读全文]
charset=utf-8和 charset=gb2312编码的不同
JavasBoy | 学习 | 2008-11-09
中文windows系统默认的是gb2312,文件内码也是gb2312的。变更为utf-8后,相应文本格式的文件内码也需要转换成utf-8才可以被当作正常编码读取。主要是由于gb2312并不是utf-8编码集的子集。
使用UTF-8编码唯一的好处是,国外的用户如果使用Windows XP英文版,浏览UTF-8编码的任何网页,无论是中文、还是日文、韩文、阿拉伯文,都可以正常显示,UTF-8是... [阅读全文]