背景
我们在创建MySQL数据库的时候经常会指定编码,如下:
create database test default character set utf8mb4 collate utf8mb4_unicode_ci;
上面的语句,在创建之后指定默认编码为utf8mb4,现在比较多的项目倾向于使用这种编码。那么它和utf8有什么区别呢?
说明
utf8mb4
是在MySQL 5.5.3
加入的,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。其实,utf8mb4
是utf8的超集,理论上原来使用utf8,然后将字符集修改为utf8mb4
,也会不会对已有的utf8编码读取产生任何问题。当然,为了节省空间,一般情况下使用utf8也就够了。既然utf8应付日常使用完全没有问题,那为什么还要使用utf8mb4呢? 低版本的MySQL支持的utf8编码,最大字符长度为 3 字节,如果遇到 4 字节的字符就会出现错误了。
三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xFFFF,也就是 Unicode 中的基本多文平面(BMP)。也就是说,任何不在基本多文平面的 Unicode字符,都无法使用MySQL原有的 utf8 字符集存储。这些不在BMP中的字符包括哪些呢?最常见的就是Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和一些不常用的汉字,以及任何新增的 Unicode 字符等等。
因此,使用utf8mb4
就可以有效的解决这个问题,比如在内容中插入表情符号等也可以得到更好的支持。