UTF8的BOM

windows下用notepad++写一python脚本 test.py,编码方式为utf8:

f=open("test.py")
line=f.readline()
while line:
	print (line,)
	line=f.readline()
f.close()

执行python test.py出错:

$ python test.py
Traceback (most recent call last):
  File "test.py", line 7, in <module>
    print (line)
UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence

原因是编码方式为带bom的UTF8,改成无bom就好了。

关于bom:

UTF- 8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开 头的FFFE了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可 是,还是有很多软件不能识别BOM。

上面的报错中的 '\ufeff' 正是 带bom的文件开头的 FFFE。

另,改了之后如果文件中有中文一样会报错,这时需要指定以何种编码读取文件:

f=open("test.py",encoding=("utf8"))

Netbeans的报错比较明确:

File ”<string>”, line None SyntaxError: Non-ASCII character in file 'D:\NetBeansProjects\NewPythonProject\src\newpythonproject.py', but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

参考:http://afericazebra.blog.163.com/blog/static/30050408201211199298711/

4 thoughts on “UTF8的BOM

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注