MySQL utf8mb4编码

MySQL

数据库

发布日期: 2018-07-24

文章字数: 401

阅读时长: 1 分

阅读次数:

背景

我们在创建MySQL数据库的时候经常会指定编码，如下：

create database test default character set utf8mb4 collate utf8mb4_unicode_ci;

上面的语句，在创建之后指定默认编码为utf8mb4，现在比较多的项目倾向于使用这种编码。那么它和utf8有什么区别呢？

说明

utf8mb4是在MySQL 5.5.3加入的，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。其实，utf8mb4是utf8的超集，理论上原来使用utf8，然后将字符集修改为utf8mb4，也会不会对已有的utf8编码读取产生任何问题。当然，为了节省空间，一般情况下使用utf8也就够了。既然utf8应付日常使用完全没有问题，那为什么还要使用utf8mb4呢? 低版本的MySQL支持的utf8编码，最大字符长度为 3 字节，如果遇到 4 字节的字符就会出现错误了。

三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xFFFF，也就是 Unicode 中的基本多文平面（BMP）。也就是说，任何不在基本多文平面的 Unicode字符，都无法使用MySQL原有的 utf8 字符集存储。这些不在BMP中的字符包括哪些呢？最常见的就是Emoji 表情（Emoji 是一种特殊的 Unicode 编码，常见于 ios 和 android 手机上），和一些不常用的汉字，以及任何新增的 Unicode 字符等等。

因此，使用utf8mb4就可以有效的解决这个问题，比如在内容中插入表情符号等也可以得到更好的支持。

zzq0324

https://www.zzq0324.cn/2018/07/24/mysql-utf8mb4-charset-encoding/