站长论坛

标题: mysql中文乱码,phpmyadmin乱码,php乱码 产生原因及其解决方 [打印本页]

作者: webptr    时间: 2007-9-26 10:42
标题: mysql中文乱码,phpmyadmin乱码,php乱码 产生原因及其解决方
近日发现很多人为mysql中文乱码问题所困扰。于是就这个问题做一下浅析。不正确的地方希望大家指正

乱码产生原因

mysql字符编码是版本4.1引入的,支持多国语言,而且一些特性已经超过了其他的数据库系统。

我们可以在MySQL Command Line Client 下输入如下命令查看mysql的字符集

mysql> SHOW CHARACTER SET;
+----------+-----------------------------+---------------------+--------+
| Charset  | Description                 | Default collation   | Maxlen |
+----------+-----------------------------+---------------------+--------+
| big5     | Big5 Traditional Chinese    | big5_chinese_ci     | 2      |
| dec8     | DEC West European           | dec8_swedish_ci     | 1      |
| cp850    | DOS West European           | cp850_general_ci    | 1      |
| hp8      | HP West European            | hp8_english_ci      | 1      |
| koi8r    | KOI8-R Relcom Russian       | koi8r_general_ci    | 1      |
| latin1   | cp1252 West European        | latin1_swedish_ci   | 1      |
| latin2   | ISO 8859-2 Central European | latin2_general_ci   | 1      |
| swe7     | 7bit Swedish                | swe7_swedish_ci     | 1      |
| ascii    | US ASCII                    | ascii_general_ci    | 1      |
| ujis     | EUC-JP Japanese             | ujis_japanese_ci    | 3      |
| sjis     | Shift-JIS Japanese          | sjis_japanese_ci    | 2      |
| hebrew   | ISO 8859-8 Hebrew           | hebrew_general_ci   | 1      |
| tis620   | TIS620 Thai                 | tis620_thai_ci      | 1      |
| euckr    | EUC-KR Korean               | euckr_korean_ci     | 2      |
| koi8u    | KOI8-U Ukrainian            | koi8u_general_ci    | 1      |
| gb2312   | GB2312 Simplified Chinese   | gb2312_chinese_ci   | 2      |
| greek    | ISO 8859-7 Greek            | greek_general_ci    | 1      |
| cp1250   | Windows Central European    | cp1250_general_ci   | 1      |
| gbk      | GBK Simplified Chinese      | gbk_chinese_ci      | 2      |
| latin5   | ISO 8859-9 Turkish          | latin5_turkish_ci   | 1      |
| armscii8 | ARMSCII-8 Armenian          | armscii8_general_ci | 1      |
| utf8     | UTF-8 Unicode               | utf8_general_ci     | 3      |
| ucs2     | UCS-2 Unicode               | ucs2_general_ci     | 2      |
| cp866    | DOS Russian                 | cp866_general_ci    | 1      |
| keybcs2  | DOS Kamenicky Czech-Slovak  | keybcs2_general_ci  | 1      |
| macce    | Mac Central European        | macce_general_ci    | 1      |
| macroman | Mac West European           | macroman_general_ci | 1      |
| cp852    | DOS Central European        | cp852_general_ci    | 1      |
| latin7   | ISO 8859-13 Baltic          | latin7_general_ci   | 1      |
| cp1251   | Windows Cyrillic            | cp1251_general_ci   | 1      |
| cp1256   | Windows Arabic              | cp1256_general_ci   | 1      |
| cp1257   | Windows Baltic              | cp1257_general_ci   | 1      |
| binary   | Binary pseudo charset       | binary              | 1      |
| geostd8  | GEOSTD8 Georgian            | geostd8_general_ci  | 1      |
| cp932    | SJIS for Windows Japanese   | cp932_japanese_ci   | 2      |
| eucjpms  | UJIS for Windows Japanese   | eucjpms_japanese_ci | 3      |
+----------+-----------------------------+---------------------+--------+
36 rows in set (0.02 sec)

更多mysql的字符集知识可以参考http://www.phpfans.net论坛的
http://www.phpfans.net/bbs/viewt ... &extra=page%3D1
或者mysql官方的
http://dev.mysql.com/doc/refman/5.1/zh/charset.html

MySQL 4.1的字符集支持(Character Set Support)有两个方面:字符集(Character set)和排序方式(Collation)。对于字符集的支持细化到四个层次: 服务器(server),数据库(database),数据表(table)和连接(connection)。
查看系统的字符集和排序方式的设定可以通过下面的两条命令:

mysql> SHOW VARIABLES LIKE 'character_set_%';
+--------------------------+-------------------------------------------+
| Variable_name            | Value                                     |
+--------------------------+-------------------------------------------+
| character_set_client     | latin1                                    |
| character_set_connection | latin1                                    |
| character_set_database   | latin1                                    |
| character_set_filesystem | binary                                    |
| character_set_results    | latin1                                    |
| character_set_server     | latin1                                    |
| character_set_system     | utf8                                      |
| character_sets_dir       | D:\MySQL\MySQL Server 5.0\share\charsets\ |
+--------------------------+-------------------------------------------+
8 rows in set (0.06 sec)

mysql> SHOW VARIABLES LIKE 'collation_%';
+----------------------+-------------------+
| Variable_name        | Value             |
+----------------------+-------------------+
| collation_connection | latin1_swedish_ci |
| collation_database   | latin1_swedish_ci |
| collation_server     | latin1_swedish_ci |
+----------------------+-------------------+
3 rows in set (0.02 sec)

上面列出的值就是系统的默认值。latin1默认校对规则是latin1_swedish_ci,默认是latin1的瑞典语排序方式.
为什么呢默认会是latin1_swedish_ci呢,追溯一下mysql历史很容易发现

1979年,一家瑞典公司Tcx欲开发一个快速的多线程、多用户数据库系统。Tcx 公司起初想利用mSQL和他们自己的快速低级例程 (Indexed Sequential Access Method,ISAM)去连接数据库表,然而,在一些测试以后得出结论:mSQL对其需求来说不够快速和灵活。这就产生了一个连接器数据库的新SQL接口,它使用几乎和mSQL一样的API接口。这个API被设计成可以使那些由mSQL而写的第三方代码更容易地移植到MySQL。

相信如果mysql是中国开发的,那么汉语也是默认编码了

当然我们也可以自己需要修改mysql的默认字符集
在mysql配置文档my.ini,找到如下两句:

[mysql]

default-character-set=latin1



# created and no character set is defined
default-character-set=latin1

修改后面的值就可以。

这里不建议改,仍保留默认值
也就是说启动 mysql时,如果没指定指定一个默认的的字符集,这个值继承自配置文件中的;
此时 character_set_server 被设定为这个默认的字符集; 当创建一个新的数据库时,
除非明确指定,这个数据库的字符集被缺省设定为 character_set_server; 当选定了一个数据库时,
character_set_database 被设定为这个数据库默认的字符集; 在这个数据库里创建一张表时,
表默认的字符集被设定为 character_set_database,也就是这个数据库默认的字符集;
当在表内设置一栏时,除非明确指定,否则此栏缺省的字符集就是表默认的字符集。

这样问题就随之而来了,假如一数据库是gbk编码。如果访问数据库时没指定其的字符集是gbk。
那么这个值将继承系统的latin1,这样就做成mysql中文乱码。

乱码解决方法

要解决乱码问题,首先必须弄清楚自己数据库用什么编码。如果没有指明,将是默认的latin1。
我们用得最多的应该是这3种字符集 gb2312,gbk,utf8。

那么我们如何去指定数据库的字符集呢?下面也gbk为例

【在MySQL Command Line Client创建数据库 】

mysql> CREATE TABLE `mysqlcode` (
    -> `id` TINYINT( 255 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY ,
    -> `content` VARCHAR( 255 ) NOT NULL
    -> ) TYPE = MYISAM CHARACTER SET gbk COLLATE gbk_chinese_ci;
Query OK, 0 rows affected, 1 warning (0.03 sec)

mysql> desc mysqlcode;
+---------+-----------------------+------+-----+---------+----------------+
| Field   | Type                  | Null | Key | Default | Extra          |
+---------+-----------------------+------+-----+---------+----------------+
| id      | tinyint(255) unsigned | NO   | PRI |         | auto_increment |
| content | varchar(255)          | NO   |     |         |                |
+---------+-----------------------+------+-----+---------+----------------+
2 rows in set (0.02 sec)

其中后面的TYPE = MYISAM CHARACTER SET gbk COLLATE gbk_chinese_ci;
就是指定数据库的字符集,COLLATE (校勘),让mysql同时支持多种编码的数据库。

当然我们也可以通过如下指令修改数据库的字符集
alter database da_name default character set 'charset'.

客户端以 gbk格式发送 ,可以采用下述配置:

SET character_set_client='gbk'
SET character_set_connection='gbk'
SET character_set_results='gbk'


这个配置就等价于 SET NAMES 'gbk'。
更多数据库知识请参考 http://www.phpfans.net/view.php?id=4

现在对刚才创建的数据库操作

mysql> use test;
Database changed

mysql> insert into mysqlcode values(null,'php爱好者');
ERROR 1406 (22001): Data too long for column 'content' at row 1

没有指定字符集为gbk,插入时出错

mysql> set names 'gbk';
Query OK, 0 rows affected (0.02 sec)

指定字符集为 gbk

mysql> insert into mysqlcode values(null,'php爱好者');
Query OK, 1 row affected (0.00 sec)

插入成功

mysql> select * from mysqlcode;
+----+-----------+
| id | content   |
+----+-----------+
| 1  | php爱好着 |
+----+-----------+
1 row in set (0.00 sec)

在没有指定字符集gbk时读取也会出现乱码,如下

mysql> select * from mysqlcode;
+----+---------+
| id | content |
+----+---------+
| 1  | php???  |
+----+---------+
1 row in set (0.00 sec)


【在phpmyadmin创建数据库,并指定字符集】


表类型根据自己需要选,这里选MyISAM(支持全文检索);
整理选择 gbk_chinese_ci 也就是gbk字符集
gbk_bin 简体中文, 二进制。gbk_chinese_ci 简体中文, 不区分大小写。

在刚才创建的数据库插入数据库


再浏览时发现是乱码


为什么呢?是因为数据库为gbk字符集,而我们操作时没有指定为gbk
回到数据库首页


可以看到 mysql 连接校对默认的latin1_bin。我们将其改为gbk_chinese_ci


再插入一条数据。看,这条已经正常了


更多phpmyadmin乱码问题请参考本论坛的
http://www.phpfans.net/bbs/viewt ... &extra=page%3D1


【解决php读取数据库乱码】

仍以数据库mysqlcode为例
CODE:[复制到剪切板]<?php  
$conn = mysql_connect("localhost","root","");
mysql_query("set names 'gbk'");//这就是指定数据库字符集,一般放在连接数据库后面就系了
mysql_select_db("test");

$sql = "select * from mysqlcode";
$result = mysql_query($sql,$conn);

?>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>mysql 字符编码</title>
</head>

<body>
<table width="300" height="32" border="1" align="center" cellpadding="0" cellspacing="0">  
  <tr>
    <td width="71" align="center">id</td>
    <td width="229" align="center">内容</td>
  </tr>
<?php while($row = mysql_fetch_assoc($result)){
echo "   
<tr>
    <td align=\"center\">".$row['id']."</td>
    <td>".$row['content']."</td>
  </tr>";
}?>   
</table>
</body>
</html>
<?php mysql_free_result($result);?>


(非常全面的一个php技术网站,php爱好者站 http://www.phpfans.net 有相当丰富的文章和源代码.)
如果我们将mysql_query("set names 'gbk'");注释掉,肯定时乱码



加上那句又正常了



一句话
你数据库用什么编码,在对数据库操作之前就set names '你的编码';

终于完了,如果对大家有用就顶下啦。不正确的地方也请指正

ps:页面申明编码:在HTML代码HEAD里面,可以用<meta http-equiv="Content-Type" content="text/html; charset="XXX" />来告诉浏览器网页采用了什么编码,目前中文网站开发中主要用的是GB2312和UTF-8两种编码。
作者: webptr    时间: 2007-9-26 10:42
再谈mysql乱码问题


原来的数据库使用的是latin1字符集
今天从新安装了mysql数据库,默认字符集使用了gbk,没有想到phparticle变成了乱码

只要编辑phparticle链接数据库的文件global.php,加了一句
  1. $DB->connect();
  2. $DB->selectdb();
  3. $DB->query("SET NAMES 'latin1'");
复制代码
才正常。

数据库里字符集还是显示的为latin1_swedish_ci,用phpmyadmin看是乱码,用mysql提示符看,需要设置set names latin1才能为中文。感觉不爽,打算也转换成gbk。
首先导出原来数据库
  1. mysqldump -uroot -p --default-character-set=latin1 --set-charset=gbk --skip-opt database_backup > test.sql
复制代码
用vi看了一下test.sql是中文
要不行就用utf8方式打开test.sql,或者找个工具转换一下
在phpmyadmin里创建字符集为gbk的数据库database_backup,
用mysql再导入回去
  1. mysql -uroot -p --default-character-set=gbk -f database_backup <  test.sql
复制代码
进phpmyadmin看,可以显示中文,并且字符集为gbk。

到此结束,随后把phparticle里加的两句话去掉,也可以正常显示中文。
作者: webptr    时间: 2007-9-26 10:42
WordPress和MovableType是主流的Blog系统,而他们都用的是MySQL数据库,那么在MySQL4.1下,中文的WP和MT就会产生种种的乱码问题。

如前MySQL4.1乱码问题分析的,一个程序( PHP,CGI 等)与MySQL建立连接后,这个程序发送给MySQL的数据采用的是什么字符集,MySQL 是无从得知的。所以解决乱码问题的根本就是我们在程序中告诉MySQL采用的编码是什么,简单的就是在程序中加入这样的一个语句:
  1. SET NAMES ‘utf8′。
复制代码
这个语句的效果等同于同时设定了
  1. SET character_set_client=’utf8′
  2. SET character_set_connection=’utf8′
  3. SET character_set_results=’utf8′
复制代码
为什么这么做?

我们安装MySQL4.1时按照默认配置,那么default-character-set= utf8。在MySQL Command Line Client下查看到的查看系统的字符集和排序方式的设定为:
  1. mysql> SHOW VARIABLES LIKE ‘character_set_%’;
  2. +――――――――?+―――――――――-+
  3. | Variable_name            |            Value           |
  4. +――――――――?+―――――――――-+
  5. | character_set_client     | latin1                     |
  6. | character_set_connection | latin1                     |
  7. | character_set_database   | utf8                       |
  8. | character_set_results    | latin1                     |
  9. | character_set_server     | utf8                       |
  10. | character_set_system     | utf8                       |
  11. | character_sets_dir       | /usr/share/mysql/charsets/ |
  12. +――――――――?+―――――――――-+
  13. 7 rows in set (0.00 sec)

  14. mysql> SHOW VARIABLES LIKE ‘collation_%’;
  15. +―――――――-+――――――-+
  16. | Variable_name        |      Value        |
  17. +―――――――-+――――――-+
  18. | collation_connection | latin1_swedish_ci |
  19. | collation_database   | utf8_general_ci   |
  20. | collation_server     | utf8_general_ci   |
  21. +―――――――-+――――――-+
  22. 3 rows in set (0.00 sec)
复制代码
按照MySQL的存储机制,数据在传输的过程中就会在latin1和utf8两种编码之间互相转换,这样就很容易的变成了乱码。我们在程序中设置了SET NAMES ‘UTF8′,就等同于把所有的编码都设置为utf8,这样数据就没有了编码转换问题,也就没有了乱码问题了。

在WP和MT中的设置方法

那么具体在WordPress和MovableType中,怎么设定SET NAMES ‘UTF8′呢?

对于PHP的MySQL系统来说,这样的修改很简单:

找到wp-includes/wp-db.php
  1. $this->dbh = @mysql_connect($dbhost,$dbuser,$dbpassword);
复制代码
//加上下面这行
  1. $this->query(”SET NAMES ‘utf8′”);
复制代码
对于用Perl的MT系统来说,同样的修改方法是:

在 MT 目录下找到lib/MT/ObjectDriver/DBI/mysql.pm
加上以下粗体显示的那行
  1.    sub init {
  2.     my $driver = shift;
  3.     $driver->SUPER::init(@_);
  4.     my $cfg = $driver->cfg;
  5.     my $dsn = ‘dbi:mysql:database=’ . $cfg->Database;
  6.     $dsn .= ‘;hostname=’ . $cfg->DBHost if $cfg->DBHost;
  7.     $dsn .= ‘;mysql_socket=’ . $cfg->DBSocket if $cfg->DBSocket;
  8.     $dsn .= ‘;port=’ . $cfg->DBPort if $cfg->DBPort;
  9.     $driver->{dbh} = DBI->connect($dsn, $cfg->DBUser, $cfg->DBPassword,
  10.         { RaiseError => 0, PrintError => 0 })
  11.         or return $driver->error(MT->translate(”Connection error: [_1]”,
  12.              $DBI::errstr));
  13.     $driver->{dbh}->do(”SET NAMES ‘utf8′”);     //加上这行
  14.     $driver;
复制代码
这样的Blog系统,数据在传输和存储的过程中,都不会出现乱码了。
作者: webptr    时间: 2007-9-26 10:42
本文介绍从MySQL4.0(或以下版本)的数据导入到MySQL4.1(或以上版本)的乱码解决方法

从MySQL4.0备份的数据表结尾部分语句如下

) ENGINE=MyISAM DEFAULT CHARSET=utf8;


) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=2;

那么,我们把它修改为MySQL4.1能够正确识别字符的语句

) ENGINE=MyISAM DEFAULT CHARSET=gbk;


) ENGINE=MyISAM DEFAULT CHARSET=gbk AUTO_INCREMENT=2;


从MySQL4.1(或以上版本)的数据导入到MySQL4.0(或以下版本)出现问题的解决方法



Query Error: CREATE TABLE pw_actions ( id smallint(6) unsigned NOT NULL auto_increment, images char(15) NOT NULL default '', name char(15) NOT NULL default '', descrip char(100) NOT NULL default '', `type` char(15) NOT NULL default '', PRIMARY KEY (id)) ENGINE=MyISAM DEFAULT CHARSET=latin1


解决方法:
将每个数据表的结尾部分

) ENGINE=MyISAM DEFAULT CHARSET=latin1;

用记事本打开,手工更改为

) ENGINE=MyISAM DEFAULT CHARSET=utf8;

就可以解决备份数据的导入问题了。


问:更换了空间,数据库重新导入后,栏目和用户出现“?”乱码,应该怎样解决?
老空间的MySQL版本:4.0.26-nt
新空间的MySQL版本:4.1.14-nt

答:这是MySQL4.1数据库编码的问题
全新安装GBK版本论坛后,后台数据库运行升级

ALTER DATABASE `你的数据库名` DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci;

再还原你原来MySQL4.0版本空间备份的数据即可

另外有些程序只要修改一下数据库连接函数就可以了
作者: webptr    时间: 2007-9-26 10:43
Mysql自4.1以后,增加了对字符集的支持。笔者之前对Mysql比较了解,刚接触4.1时,感觉Mysql有点多此一举,但后来细想发现,对字符集的支持,虽然对开发者来说,会麻烦一些,但不可否认,是一种进步。对字符集的支持,不仅更加支持多语言,而且,也方便移植。
刚开始使用Mysql4.1,你可能感觉有点不适,下面,简单阐述一下笔者对Mysql4.1字符集的理解,再讲述如何PHP如何适应Mysql的这种变化,希望大家看过这文章后,能够有所收获。
如果你对计算机基础知识不了解,请直接阅读“结论篇”

一.原理篇
Mysql的字符集里有两个概念,一个是“Character set(字符集)”,另一个是“Collations”。
1. Collations
Collations翻成中文是“校验”,在网页开发的过程中,这个词汇,只在Mysql里使用,主要作用是指导Mysql对字符的比较,比如,ASCII字符集里,Collations规定了a小于b,a等于a,以及a是否等于A之类的。通常,大家基本可以忽略Collations的存在,因为每个字符集都有一个默认的Collations,通常,使用默认的Collations就可以了。
2.字符集
与这对比的是,字符集是个更广的概念,即使是Windows下普通的文本文件,也渗及到字符集的问题。不同的字符集,规定了不同的字符的编码方式。一个character set (字符集)是一组符号和编码,比如,ASCII字符集,包括的字符有:数字,大小写字母,分号、换行之类的符号,编码方式是用一个7bit表示一个字符(A的编码是65,b的编码是98)。ASCII只规定了英文字母的编码,非英文语言不能用ASCII编码表示,为此,不同的国家,都为自己的语言做了编码,比如,我们国家,就有GB2312编码。但每个国家之间的编码不同,也存在着一些跨平台的问题,为此,一些国际化标准组织,就制定了一些国际通用的编码,最常用的就是UTF8了。ASCII只对英文符号和英文字母做了编码,GB2312对英文符号,英文字母,汉字做了编码,UTF8对世界上所有的语言文字做了编码,所以,GB1212的字符包含了ASCII字符,UTF8包含了GB2312字符。由此可见,UTF8是所含最广字符的字符集,所以,在一些多语言的WEB系统中,一般用UTF8字符集(PHPMyAdmin使用UTF8编码)。
任何文本的存储,都渗及到字符集的概念。包括数据库,也包括普通的文本文件。


主要术语:
字符:汉字,英文字母,标点符号,拉丁文等等。
编码:将字符转换成计算机存储的格式,比如,A用65表示。
字符集:一组字符以及对应的编码方式。

a. Mysql的字符集


Mysql目前支持多字符集,并且,支持在不同的字符集之间转换(便于移植和支持多语言)。
Mysql可以设置服务器级字符集、数据库级字符集、数据表级字符集、表列的字符集,实际上,最终使用字符集的地方是存储字符的列,比如,你设置table1中col1列是字符类型,col1才用到了字符集,如果table1表的col2列是int类型,col2不使用字符集的概念。
服务器级字符集、数据库级字符集、数据表级字符集都是为列的字符集做默认选项的。
Mysql一定有一个字符集,可以通过启动时加参数指定 ,也可以编译时指定,也可以在配置文件里指定。Mysql服务器字符集,只是做为数据库级的默认值。创建数据库时,你可以指定字符集,如果没指定,就使用服务器的字符集。同理,创建表时,你可以指定表级的字符集,如果没指定,使用数据库的字符集做为表的字符集。创建列时,你可以指定某列的字符集,如果没指定,就使用表的字符集。
通常情况下,您只需设置服务器级的字符集,其它的数据库级,表级,以及列级的字符集,都继承自服务器级字符集。
由于UTF8是最广的字符集,所以,一般情况下,我们设置Mysql服务器级的字符集为UTF8!
b. 普通文本的字符集问题

任何文本的存储,都存在着字符集的问题,普通文本文件也不例外。
Windows2000+的系统中,打开记事本,“保存为…”对话框,就有一个选项,可以让你选择存储文本的编码方式。
通常情况下,大家都使用Windows2000+的系统,都使用默认的编码,所以,不会碰到字符集的问题。
Windows下,保存文本文件时,可以选择编码方式,但打开文本文件时,都是自动判断编码方式的。网上有一个用Windows2000+的记事本玩移动,联通的笑话,大家可以搜搜,就是因为Windows在打开文本文件时,编码判断错误引起的问题。
因为自动判断编码有时会错误,所以,有的文本文件,规定了如何识别自身所使用的编码。HTML文件就是一个这样的例子。
HTML是文本文件。存储HTML文件的时候,需要使用一个编码,并且,在HTML文件里,也使用HTML语法,指定了该文件所使用的编码(比如<meta http-equiv="content-type" content="text/html; charset=UTF-8">)。如果HTML文件没有指定编码,则浏览器自动识别文件的编码。如果HTML指定了编码,则浏览器使用HTML指定的编码。
通常情况下,HTML文件指定的charset和HTML文件自身的编码是一致的,但也有不一致的情况,如果不一致,就会导致网页乱码(此处乱码,只和文本文件有关,和数据库无关。)使用专门的网页编辑工具(比如Dreamwave),会自动根据网页中的charset值来编码文件。
c. php+mysql的字符集问题

PHP最终生成的是文本文件,但他要取数据库里的文本,或将文本存进数据库。
由于Mysql支持多字符集,默认情况下,Mysql不知道PHP发给他的是什么编码的字符,所以,Mysql要求客户端(PHP)告诉他存取的字符集是什么。
  1. PHP通过设置character_set_client,告诉Mysql,PHP存进数据库的是什么编码方式。
  2. PHP通过设置character_set_results,告诉Mysql,PHP需要取什么样编码的数据。
  3. PHP通过设置character_set_connection,告诉Mysql,PHP查询中的文本,使用什么编码。
复制代码
MYSQL使用设置的编码方式存储文本。
假设Mysql使用setserver来存储文本,PHP的character_set_client是setclient,PHP的character_set_results是setresult。那么,Mysql将PHP发来的文本,从setclient编码方式,转换成setserver编码方式,再存入数据库,如果PHP取文本,Mysql将文本从setserver转换成setresult,再发送给PHP。
PHP文件(最终生成的HTML文件)本身有个编码,如果Mysql传过来的编码,与PHP文件自身的编码不同,那么,整个网页,必然乱码。所以,PHP一般将自己的编码方式,告诉Mysql。
  1. 要保证不乱码,就必须将三个编码统一:一是网页自身的编码,二是HTML里指定的编码,三是PHP告诉Mysql的编码(包括character_set_client和character_set_results)。
复制代码
第一和第二个编码,如果使用DW之类的编辑器写的网页,通常是一致的,但用记事本写的网页,有可能不一致。
第三个编码,需要手工通知Mysql。这步可以通过在PHP里使用mysql_query(“set names characterX”)来实现。
d.字符集的转换问题
如果小字集转换成大字符集,不会丢失数据,但大字集,转换成小字集,可能会丢失数据。
比如,UTF8里有的字符,GB2312不一定有,所以,从UTF8转换到GB2312可能会丢失一些字符。
但有种情况例外,先从GB2312转成UTF8,再从UTF8转成GB2312,这种情况是不会丢数据的,因为,刚开始转换的文本,都是GB2312里的字符,所以,整个过程都是GB2312的字符在转换,不会丢失。
正因为UTF8能容纳世界上的所有字符,所以,数据库一般使用UTF8编码。这使得,任何字符都可以存进UTF8编码的数据库。
e. PHPMyAdmin乱码的问题
PHPMyAdmin支持多国语言,这就必定要求HTML页面使用UTF8编码。
HTML页面使用UTF8编码,这就必定要求PHPMyAdmin连接Mysql时,character_set_client和character_set_results使用UTF8编码。
当前情况下,PHP连接Mysql只能是使用set names(或其它几个语句)来通知Mysql的编码方式,如果没有显式的声明编码方式,都将使用latin1编码。一般的程序,都没有显式声明character_set_client变量,所以,都是将gb2312文本,按latin1编码方式存在数据库,PHPMyAdmin再用utf8格式读取,肯定是乱码的。
如果PHP程序按正确的编码存入数据库,肯定是没有问题的。所以,需要修改的不是PHPMyAdmin.(虽然有时修改PHPMyAdmin可以解决乱码问题,但这不是问题的根本)

二.总结篇

上面的讲得有点乱,总结一下:
1.数据库尽量使用utf8存储(修改/etc/my.cnf,在[mysqld]段加上default-character-set=utf8)
(已有的数据库,先转成UTF8格式)
2.PHP程序在查询数据库之前,执行mysql_query(“set names xxxx”);其中xxxx是你网页的编码(charset=xxxx),如果网页中charset=utf8,则xxxx=utf8,如果网页中charset=gb2312,则xxxx=gb2312,如果网页中的charset=ipaddr,则xxxx=ipaddr (开个玩笑,没这编码)
几乎所有WEB程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入mysql_query(“set names”)就可以了。
3.PHPMyAdmin不需要做改动。
4.需要注意的是,为保证网页实际编码(Windows保存对话框里的编码)和他声明的编码(charset=?)是一致的,请用DW之类的工具做网页。

写得有点仓促,希望大家指正和补充。
作者: webptr    时间: 2007-9-26 10:43
程序里使用set names gb2312 之后,从数据库里读出来的,就是GB2312编码了。
数据库只是用UTF8存储,




欢迎光临 站长论坛 (http://www.tzlink.com/bbs/) Powered by Discuz! X3.2