网站建设小程序公众号推广开发规模以上工业企业奖励
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- 前言
 - 一、知识体系
 - 二、Mysql-优化
 - 1. 优化-如何定位慢查询
 - ① 问题引入
 - ② 解决方案
 - ③ 问题总结
 - ④ 实战面试
 
- 2. 优化-sql执行很慢,如何解决
 - ① 问题引入
 - ② 解决方案
 - ③ 问题总结
 - ④ 实战面试
 
- 3. 优化-索引概念
 - ① 问题引入
 - ② 数据结构对比
 - ③ 问题总结
 - ④ 实战面试
 
- 4. 优化-聚簇索引与非聚簇索引
 - ① 问题引入
 - ② 聚簇索引
 - ③ 问题总结
 - ④ 实战面试
 
- 5. 优化-覆盖索引
 - ① 问题引入
 - ② 覆盖索引
 - ③ Mysql超大分页处理
 - ④ 问题总结
 - ⑤ 实战面试
 
- 6. 优化-索引创建的原则
 - ① 问题引入
 - ② 索引创建的原则
 - ③ 问题总结
 - ④ 实战面试
 
- 7. 优化-什么情况下索引会失效
 - ① 问题引入
 - ② 什么情况下索引会失效
 - ③ 问题总结
 - ④ 实战面试
 
- 8. 优化-SQL优化的经验
 - ① 问题引入
 - ② sql优化经验
 - ③ 问题总结
 - ④ 实战面试
 
- 三、Mysql-其他面试题
 - 1. 事务的特性ACID
 - ① 问题引入
 - ② ACID是什么
 - ③ 问题总结
 - ④ 实战面试
 
- 2. 并发事务
 - ① 问题引入
 - ② 并发事务问题
 - ③ 事务隔离
 - ④ 问题总结
 - ⑤ 实战面试
 
- 3. 事务-undo log和redo log的区别
 - ① 问题引入
 - ② redo log重做日志
 - ③ undo log回滚日志
 - ④ 问题总结
 - ⑤ 实战面试
 
- 4. 事务-MVCC多版本并发控制(难)
 - ① 问题引入
 - ② MVCC多版本并发控制
 - ③ 问题总结
 - ④ 实战面试
 
- 5. Mysql主从同步原理
 - ① 问题引入
 - ② 主从同步原理
 - ③ 问题总结
 - ④ 实战面试
 
- 6. Mysql分库分表
 - ① 问题引入
 - ② 拆分策略
 - ③ 问题总结
 
- 引用说明
 
前言
本文主要记录mysql的查询、索引、sql优化、事务、主从同步、分库分表等问题的分析与面试回答示例。
提示:以下是本篇文章正文内容,下面案例可供参考
一、知识体系

 
二、Mysql-优化
1. 优化-如何定位慢查询
① 问题引入

- 聚合查询
 - 多表查询
 - 表数据量过大查询
 - 深度分页查询
 
表象:页面加载过慢、接口压测响应时间过长(超过1s)
② 解决方案
方案一:开源工具
 调试工具:Arthas
 运维工具:Prometheus 、Skywalking
 
 方案二:Mysql自带慢日志
 慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒)的所有SQL语句的日志如果要开启慢查询日志,需要在MySQL的配置文件(/etc/my.cnf)中配置如下信息:
 
 配置完毕之后,通过以下指令重新启动MySQL服务器进行测试,查看慢日志文件中记录的信息/var/lib/mysql/localhost-slow.log
 
③ 问题总结

④ 实战面试

2. 优化-sql执行很慢,如何解决
① 问题引入

- 聚合查询:新增临时表
 - 多表查询:优化sql语句结构
 - 表数据量过大查询:添加索引
 - 深度分页查询
 
② 解决方案
一个SQL语句执行很慢,如何分析?
可以采用EXPLAIN 或者DESC命令获取MySQL如何执行SELECT语句的信息
 
 展示SQL执行的情况,部分字段说明如下:
 
- possible_key 当前sql可能会使用到的索引
 - key 当前sql实际命中的索引
 - key_len 索引占用的大小
 - Extra 额外的优化建议

 - type这条sql的连接的类型,性能由好到差为NULL、system、const、 eq_ref、ref、range、index、all
system:查询系统中的表
const:根据主键查询(常用)
eq_ref:sql的查询条件是主键索引查询或唯一索引查询(返回一条数据)
ref:sql的查询条件是索引查询(返回多条数据)
range:索引范围查询
index:全索引查询,遍历整个索引数,效率不高(需要优化)
all:全盘扫描(需要优化) 
③ 问题总结

 可以采用MySQL自带的分析工具EXPLAIN
- 通过key和key_len检查是否命中了索引(索引本身存在是否有失效的情况)
 - 通过type字段查看sql是否有进一步的优化空间,是否存在全索引扫描或全盘扫描
 - 通过extra建议判断,是否出现了回表的情况,如果出现了,可以尝试添加索引或修改返回字段来修复
 
④ 实战面试

3. 优化-索引概念
① 问题引入

 索引(index) 是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构(B+树),这些数据结构以某种方式引用 (指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。
 
 维护树的数据结构,提高查找效率,减少IO的操作

 B+树、二叉树、红黑树、B树
② 数据结构对比
MySQL默认使用的索引底层数据结构是B+树。再聊B+树之前,我们先聊聊二叉树和B树
 
 B-Tree,B树是一种多叉路衡查找树,相对于二叉树,B树每个节点可以有多个分支,即多叉。以一颗最大度数(max-degree)为5(5阶)的b-tree为例,那这个B树每个节点最多存储4个key
 
 B+Tree是在BTree基础上的一种优化,使其更适合实现外存储索引结构,InnoDB存储引擎就是用B+Tree实现其索引结构
 
B树与B+树对比:
- 磁盘读写代价B+树更低(非叶子节点不存储数据);
 - 查询效率B+树更加稳定(数据都存储在叶子节点);
 - B+树便于扫库和区间查询(叶子节点之间使用的双向指针)
 
③ 问题总结

④ 实战面试

4. 优化-聚簇索引与非聚簇索引
① 问题引入

- 什么是聚集索引
 - 什么是二级索引(非聚集索引)
 - 什么是回表?
 
② 聚簇索引

 聚集索引选取规则:
 1.如果存在主键,主键索引就是聚集索引。
 2.如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引。
 3.如果表没有主键,或没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引。
 
 回表查询:先通过二级索引找到对应的主键值,在用主键值在聚集索引中去找整行的数据

③ 问题总结

④ 实战面试

5. 优化-覆盖索引
① 问题引入

 覆盖索引是指查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到。
 
 判断下面的SQL哪些是覆盖索引,为什么?
select * from tb_user where id = 1
是,因为根据id查询的,id默认是主键索引,就是聚簇索引,聚簇索引中对应的是整行的记录select id,name from tb_user where name = 'Arm'
是,因为通过name这个二级索引也可以找到id,是一次性可以查询出来id和name的select id,name,gender from tb_user where name = 'Arm'
不是,需要通过回表查询才能获取到gender
 
② 覆盖索引
覆盖索引是指查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到。
 
③ Mysql超大分页处理
在数据量比较大时,如果进行limit分页查询,在查询时,越往后,分页查询效率越低。
 我们一起来看看执行limit分页查询耗时对比:
 
因为,当在进行分页查询时,如果执行limit 9000000,10,此时需要MySQL排序前9000010记录,仅仅返回9000000 - 9000010 的记录,其他记录丢弃,查询排序的代价非常大。
优化思路:
 一般分页查询时,通过创建覆盖索引能够比较好地提高性能,可以通过覆盖索引加子查询形式进行优化
 
 
④ 问题总结

⑤ 实战面试

6. 优化-索引创建的原则
① 问题引入

 先陈述自己在实际的工作中是怎么用的
 主键索引
 唯一索引
 根据业务创建的索引(复合索引)
② 索引创建的原则
-  
针对于数据量较大,且查询比较频繁的表建立索引。单表超过10万数据 (增加用户体验)
 -  
针对于常作为查询条件(where)、排序(order by)、分组(group by) 操作的字段建立索引。
 -  
尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高(比如一个地区字段,大部分都是北京市,就不适合创建索引)。

 -  
如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引(比如简介内容想要创建索引,就采用前缀索引)。

 -  
尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率。

 -  
要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增删改的效率。
 -  
如果索引列不能存储NULL值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时,它可以更好地确定哪个索引最有效地用于查询。
 
③ 问题总结

④ 实战面试

7. 优化-什么情况下索引会失效
① 问题引入

 索引失效的情况有很多,可以说一些自己遇到过的。
 给tb_seller创建联合索引,字段顺序: name,status,address
 
 那快读判断索引是否失效了呢?执行计划explain
② 什么情况下索引会失效

-  
违反最左前缀法则
如果索引了多列,要遵守最左前缀法则。指的是查询从索引的最左前列开始,并且不跳过索引中的列。匹配最左前缀法则,走索引。
有效的情况如下图所示:

失效的情况如下图所示(违反最左前缀法则):

 -  
范围查询右边的列,不能使用索引。
根据前面的两个字段name , status查询是走索引的,但是最后一个条件address没有用到索引。

 -  
不要在索引列上进行运算操作,索引将失效。

 -  
字符串不加单引号,造成索引失效。
由于,在查询是,没有对字符串加单引号,MySQL的查询优化器,会自动的进行类型转换,造成索引失效。

 -  
以%开头的Like模糊查询,索引失效。如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配,索引失效。

 
③ 问题总结

④ 实战面试

8. 优化-SQL优化的经验
① 问题引入

 表的设计优化
 索引优化(参考优化创建原则和索引失效)
 SQL语句优化
 主从复制、读写分离
 分库分表
② sql优化经验
- 表的设计优化(参考阿里开发手册《嵩山版》)
a. 比如设置合适的数值(tinyint int bigint),要根据实际情况选择
b. 比如设置合适的字符串类型(char和varchar) char定长效率高.varchar可变长度,效率稍低 - SQL语句优化
a. SELECT语句务必指明字段名称(避免直接使用select* )
b. SQL语句要避免造成索引失效的写法
c. 尽量用union all代替union,union会多一次过滤,效率低
d. 避免在where子句中对字段进行表达式操作
e. Join优化能用inner join就不用left join right join,如必须使用一定要以小表为驱动,内连接会对两个表进行优化,优先把小表放到外边,把大表放到里边。left join或right join,不会重新调整顺序 - 主从复制、读写分离
如果数据库的使用场景读的操作比较多的时候,为了避免写的操作所造成的性能影响可以采用读写分离的架构。
读写分离解决的是,数据库的写入,影响了查询的效率。

 
③ 问题总结

④ 实战面试

三、Mysql-其他面试题
1. 事务的特性ACID
① 问题引入

 事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。
② ACID是什么
- 原子性(Atomicity) :事务是不可分割的最小操作单元,要么全部成功,要么全部失败。
 - 一致性(Consistency) :事务完成时,必须使所有的数据都保持一致状态。
 - 隔离性(Isolation) :数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立环境下运行。
 - 持久性(Durability) :事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。

 
③ 问题总结

④ 实战面试

2. 并发事务
① 问题引入

 ● 并发事务问题:脏读、不可重复读、幻读
 ● 隔离级别:读未提交、读已提交、可重复读、串行化
② 并发事务问题
-  
脏读:一个事务读到另外一个事务还没有提交的数据。

 -  
不可重复读:一个事务先后读取同一条记录,但两次读取的数据不同,称之为不可重复读。

 -  
幻读:一个事务按照条件查询数据时,没有对应的数据行,但是在插入数据时,又发现这行数据已经存在,好像出现了“幻影”。

 
③ 事务隔离
对并发事务进行隔离,有以下隔离级别,如下图所示:
 
 注意:事务隔离级别越高,数据越安全,但是性能越低。
④ 问题总结

⑤ 实战面试

3. 事务-undo log和redo log的区别
① 问题引入

 undo log和redo log都是mysql的日志文件,但是功能不一样。
- 缓冲池(buffer pool):主内存中的一个区域,里面可以缓存磁盘上经常操作的真实数据,在执行增删改查操作时,先操作缓冲池中的数据(若缓冲池没有数据,则从磁盘加载并缓存),以一定频率刷新到磁盘,从而减少磁盘IO,加快处理速度
 - 数据页(page):是InnoDB 存储引擎磁盘管理的最小单元,每个页的大小默认为16KB。页中存储的是行数据

 
② redo log重做日志
redo log 重做日志,记录的是事务提交时数据页的物理修改,是用来实现事务的持久性。
 该日志文件由两部分组成:重做日志缓冲(redo log buffer) 以及重做日志文件(redo log file) ,前者是在内存中,后者在磁盘中。当事务提交之后会把所有修改信息都存到该日志文件中,用于在刷新脏页到磁盘,发生错误时,进行数据恢复使用。(每个一段时间会进行清理)
 
③ undo log回滚日志
undo log 回滚日志,用于记录数据被修改前的信息,作用包含两个:提供回滚和MVCC(多版本并发控制)。undo log和redo log记录物理日志不一样,它是逻辑日志。
- 可以认为当delete一条记录时,undo log中会记录一 条对应的insert记录, 反之亦然,
 - 当update一条记录时, 它记录一条对应相反的update记录。 当执行rollback时, 就可以从undo log中的逻辑记录读取到相应的内容并进行回滚。
 - undo log可以实现事务的一致性和原子性
 
④ 问题总结

⑤ 实战面试

4. 事务-MVCC多版本并发控制(难)
① 问题引入

 锁:排他锁(如一 个事务获取了一个数据行的排他锁,其他事务就不能再获取该行的其他锁)
 mvcc:多版本并发控制
② MVCC多版本并发控制
MVCC全称Multi-Version Concurrency Control,多版本并发控制。指维护一个数据的多个版本,使得读写操作没有冲突
MVCC的具体实现,主要依赖于数据库记录中的隐式字段、undo log日志、readView。
例如:下面有4个事务,事务2、3、4对该记录都进行了操作,那么在事务5中的两条查询语句是查询的哪个事务版本的记录呢?
 
MVCC的实现原理:
-  
记录中的隐藏字段

 -  
undo log 回滚日志
a. 回滚日志,在insert、 update、 delete的时候产生的便于数据回滚的日志。
b. 当insert的时候,产生的undo log日志只在回滚时需要,在事务提交后,可被立即删除。
c. 而update、delete的时候, 产生的undo log日志不仅在回滚时需要,mvcc版本访问也需要,不会立即被删除。 -  
undo log 版本链
不同事务或相同事务对同一条记录进行修改,会导致该记录的undo log生成一条记录版本链表,链表的头部是最新的旧记录,链表尾部是最早的旧记录。

 -  
readview
ReadView (读视图)是 快照读 SQL执行时MVCC提取数据的依据,记录并维护系统当前活跃的事务(未提交的) id。
a. 当前读:读取的是记录的最新版本,读取时还要保证其他并发事务不能修改当前记录,会对读取的记录进行加锁。对于我们日常的操作,如:
select … lock in share mode(共享锁),select … for update、update、 insert、 delete(排他锁)都是一 种当前读。
b. 快照读:简单的select (不加锁)就是快照读,快照读,读取的是记录数据的可见版本,有可能是历史数据,不加锁,是非阻塞读。
Read Committed:每次select, 都生成一个快照读。
Repeatable Read:开启事务后第一个select语句才是快照读的地方。 
举例说明:
 
 当前读:不受隔离级别影响,事务A的两次select都是读到的最新的数据
 快照读:不同的隔离级别不一样,RC读出来不一样,RR读出来都是相同的,获得的结果就是快照读
ReadView包含的四个核心字段:
 
 
 不同的隔离级别,生成ReadView的时机不同:
 ➢ READ COMMITTED :在事务中每一 次执行快照读时生成ReadView。
 ➢ REPEATABLE READ:仅在事务中第一 次执行快照读时生成ReagView,后续复用该ReadView。
 

③ 问题总结

④ 实战面试

5. Mysql主从同步原理
① 问题引入

 主从架构:主库用于写数据,从库用于读数据
 主库与从库如何进行同步的?
 
② 主从同步原理
MySQL主从复制的核心就是二进制日志
 二进制日志(bin log) 记录了所有的 DDL (数据定义语言,增删改查表结构) 语句和 DML (数据操纵语言,增删改查表中的数据) 语句,但不包括数据查询 (SELECT、 SHOW) 语句。
复制分成三步:
- Master 主库在事务提交时,会把数据变更记录在二进制日志文件Binlog中。
 - 从库读取主库的二进制日志文件Binlog,写入到从库的中继日志Relay Log。
 - slave重做中继日志中的事件,将改变反映它自己的数据。
 

③ 问题总结

④ 实战面试

6. Mysql分库分表
① 问题引入

 主从架构,读写分离,分担了访问压力
 
 分库分表的时机:
- 前提,项目业务数据逐渐增多,或业务发展比较迅速(单表的数据量达到1000W或20G以后)
 - 优化已解决不了性能问题(主从读写分离、查询索引…)
 - IO瓶颈(磁盘IO、网络IO)、CP\瓶颈(聚合查询、连接数太多)
 
分库分表主要解决存储的压力
 
② 拆分策略
垂直拆分与水平拆分
 
垂直拆分之垂直分库:以表为依据,根据业务将不同表拆分到不同库中。
 特点:
 1.按业务对数据分级管理、维护、监控、扩展
 2.在高并发下,提高磁盘IO和数据量连接数

垂直拆分之垂直分表:以字段为依据,根据字段属性将不同字段拆分到不同表中。
 特点:
 1.冷热数据分离
 2.减少IO过渡争抢,两表互不影响
 拆分规则:
 ● 把不常用的字段单独放在一张表
 ● 把text、blob等大字段拆分出来放在附表中
 
水平拆分之水平分库:将一个库中的数据拆分到多个库中。
 特点:
 1.解决了单库大数量,高并发的性能瓶颈问题
 2.提高了系统的稳定性和可用性
 路由规则
 ● 根据id节点取模
 ● 按id也就是范围路由, 节点1(1-100万),节点2(100万-200万)
 
水平拆分之水平分表:将一个表的数据拆分到多个表中(可以在同一个库内)。
 特点:
 1.优化单一表数据量过大而产生的性能问题;
 2.避免IO争抢并减少锁表的几率;
 
分库分表的策略有哪些?
 
③ 问题总结
常用垂直分库和垂直分表
 
引用说明
https://www.bilibili.com/video/BV1yT411H7YK?p=20&vd_source=98092b0aee05ae7c890b09fe07f13df4
