mysql中的utf8与utf8mb4存储及区别

1. 概述

MySQL中的字符集决定了数据库中存储的数据的编码方式。在MySQL中,utf8是最常见的字符集之一,用于存储Unicode字符集中的数据,支持1至3个字节长度的编码方式。但是,由于某些字符需要4个字节的存储空间,因此MySQL引入了一种新的字符集:utf8mb4。从MySQL 5.5.3版本开始,utf8mb4被推荐作为存储Unicode数据的首选字符集。

2. utf8和utf8mb4的区别

utf8mb4是utf8的超集,支持4字节长度的编码方式,而utf8只支持3字节长度的编码方式。在utf8中,字节的范围是0~0xFFFF,而utf8mb4中的范围是0~0x10FFFF。utf8mb4可以存储表情符号等需要4字节存储空间的特殊字符,而在utf8中,这些字符无法被存储。

2.1. 字符集设置

设置MySQL的字符集可以在以下两个级别进行:

服务器级别

数据库、表、列级别

如果要修改服务器级别的字符集,需要在my.cnf文件中添加以下两行代码:

[client]

default-character-set=utf8mb4

[mysql]

default-character-set=utf8mb4

[mysqld]

character-set-server=utf8mb4

如果要修改数据库、表、列级别的字符集,则需要使用以下语句:

ALTER DATABASE db_name CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

ALTER TABLE tbl_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

ALTER TABLE tbl_name MODIFY col_name datatype CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

2.2. 存储长度的差异

由于utf8mb4比utf8支持更多的编码方式,因此utf8mb4需要更多的存储空间。例如,在utf8中,存储一个中文字符需要3个字节,而在utf8mb4中需要4个字节。因此,在utf8mb4中存储相同长度的数据,需要更多的磁盘空间。

3. 总结

utf8和utf8mb4是两种常见的MySQL字符集。utf8支持1至3个字节长度的编码方式,而utf8mb4支持1至4个字节长度的编码方式。utf8mb4是utf8的超集,支持存储4字节长度的特殊字符,如表情符号等。在使用MySQL存储Unicode数据时,应该优先选择utf8mb4作为字符集。

数据库标签