Linux下utf-8 BOM 文件的检查与删除

当源程序是 gbk 格式，你转换为 utf8 的时候，很多情况是头部会出现 bom,如果是 php 代码，这样会出现很多意想不到的事情，那怎么办呢，你可以用 linux 命令来查找，然后对文件的 bom 进行删除。 bom:UTF-8签名（UTF-8 signature）也叫做BOM（Byte Order Mark）查询BOM：用 vim 去掉 utf-8 BOM 保留 utf-8 BOM vim 转换文件为 unix 格式使用 grep 查找带 bom 的文件，并使用 perl 去掉 bom 头假设你知道…

2019-01-21 3条评论 22405点热度 0人点赞 JavasBoy 阅读全文

打开"记事本"程序Notepad.exe，新建一个文本文件，内容就是一个"严"字，依次采用ANSI，Unicode，Unicode big endian 和 UTF-8编码方式保存。然后，用文本编辑软件UltraEdit中的"十六进制功能"，观察该文件的内部编码方式。 1）ANSI：文件的编码就是两个字节"D1 CF"，这正是"严"的GB2312编码，这也暗示GB2312是采用大头方式存储的。 2）Unicode：编码是四个字节"FF FE 25 4E"，其中"FF FE"表明是小头方式存储，真正的编码是4E25…

2014-07-25 0条评论 12933点热度 0人点赞 JavasBoy 阅读全文

关于Python脚本开头 # -*- coding: utf-8 -*- 的作用 1 指定文件编码类型是用来说明脚本语言是python的是要用/usr/bin下面的程序（工具）python，这个解释器，来解释python脚本，来运行python脚本的。推荐使用下面这个 2 # -*- coding: utf-8 -*- 是用来指定文件编码为utf-8的，详情可以参考： PEP 0263 — Defining Python Source Code Encodings 在此，详细的（主要是翻译）解释一…

2014-03-12 2条评论 34069点热度 0人点赞 JavasBoy 阅读全文

中文windows系统默认的是gb2312，文件内码也是gb2312的。变更为utf-8后，相应文本格式的文件内码也需要转换成utf-8才可以被当作正常编码读取。主要是由于gb2312并不是utf-8编码集的子集。使用UTF-8编码唯一的好处是，国外的用户如果使用Windows XP英文版，浏览UTF-8编码的任何网页，无论是中文、还是日文、韩文、阿拉伯文，都可以正常显示，UTF-8是世界通用的语言编码，而如果用Windows XP英文版的IE6.0浏览gb2312语言编码的网页，则会提示是否安装语言包。因此，可…

2008-11-09 1条评论 36387点热度 0人点赞 JavasBoy 阅读全文

Linux下utf-8 BOM 文件的检查与删除

About字符编码

关于Python脚本开头coding-utf-8的作用

charset=utf-8和 charset=gb2312编码的不同