标签为 "GBK" 的存档

linux 压缩解压zip中文名文件,乱码解决

压缩解压缩的文件中的中文名乱码,是由于windows的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致,所以导致了文件名乱码的问题,解决这个问题的做法就是对文件名进行转码。(仅仅是对文件名,不是对文件内容)

Linux中专门提供了一种工具convmv进行文件名编码的转换,可以将文件名从GBK转换成UTF-8编码,或者从UTF-8到GBK进行转码。

首先看一下系统上是否安装了convmv,如果没安装的话用:
yum install convmv
安装。
下面看一下convmv的具体用法:

convmv -f 源编码 -t 新编码 [选项] 文件名

常用参数:
-r 递归处理子文件夹
–notest 真正进行操作,请注意在默认情况下是不对文件进行真实操作的,而只是试验。
–list 显示所有支持的编码
–unescap 可以做一下转义,比如把%20变成空格
比如我们有一个utf8编码的文件名,转换成GBK编码,命令如下:

convmv -r -f UTF-8 -t GBK –notest utf8编码的文件名/或者文件夹

如果是-r递归处理的话,文件夹内不能有非源编码的文件,否则会转化失败。
this file was not validly encoded in UTF-8: “searchtoolsExport/��.txt”
To prevent damage to your files, we won’t continue.
First fix this or correct options!

转换以后”utf8编码的文件名”会被转换成GBK编码(只是文件名编码的转换,文件内容不会发生变化)。

然后在进行zip或者tar的打包/压缩,拷贝到windows下,就可以顺利打开,不乱码了。
Read more…

svn: Can’t convert string from ‘UTF-8’ to native encoding 解决办法


svn: Can't convert string from 'UTF-8' to native encoding:

解决办法,把LC_ALL改成自己的编码,我之前一直是改LANG和LC_TYPE,但是不见生效 :
export LC_ALL=zh_CN.UTF-8

Read more…

php header ie/chrome 下载-文件名乱码-解决方案

通过php的header函数,来指定为文件下载流,可以让文件正常下载,但是,文件名确很让人烦恼,文件名有中文时,如果页面编码为utf8,当文件名也为utf8时,在chrome下正常,但是在360se或者IE下,就成了乱码了;如果把文件名的编码设置为GBK,在IE下输出时候的文件名正常了,但是在chrome下,文件名又乱码了,这个太纠结了。
抓包的话,能看到如下的数据流,仔细看看,感觉跟发送邮件时的数据流很相似,于是想想是不是也采用跟邮件似的文件流形式,来避免出现乱码。
HTTP/1.1 200 OK
Date: Mon, 08 Oct 2012 17:32:12 GMT
Content-Length: 204
Content-Disposition: attachment; filename=%E6%B5%8B%E8%AF%95.txt
Cache-Control: public
Content-Type: application/octet-stream
Connection: Close

所以做法就是把文件名进行编码,根据RFC 1738 ,把中文编码,再放到数据流里,输出的时候就会正常了。在php中,具体的做法就是这样了,贡献一个我自己的文件下载头信息。把这个放在前边,再在后边echo输出你希望下载的内容即可了。

        $name = rawurlencode($filename);
        header("Content-type: text/plain; charset=utf-8");
	header("Content-Type: application/force-download");  
	header("Content-Type: application/octet-stream");  
	header("Content-Type: application/download");  
	header('Content-Disposition:inline;filename="'.$name.txt.'"');  
	header("Content-Transfer-Encoding: binary");  
	header("Expires: Mon, 26 Jul 1997 05:00:00 GMT");  
	header("Last-Modified: " . gmdate("D, d M Y H:i:s") . " GMT");  
	header("Cache-Control: must-revalidate, post-check=0, pre-check=0");  
	header("Pragma: no-cache");  

PHP正则匹配字符串中的中文

如果标签里面有中文、英文、数字等混排,则需要对汉字进行特殊处理,由于PCRE不支持U P L之类的perl字符串处理转义,使用16进制或者Unicode进行处理,范例如下:

$str = "之二宽阔的甘家口东#标签1#标签2 #标签3。#标签4,都发$1234 ¥xc,cvm , ¥12,dflksjf如何#标签5.x #tag6.cvxcv“";
preg_match_all('/#([a-zA-Z0-9x7f-xff]+)/', $str, $mat);
print_r($mat);
 
preg_match("/[x{00a5}x{ffe5}](d+)/u", $str, $mat);
print_r($mat);

Read more…