教育网站建设平台,店铺代运营服务,做网站要学哪些代码,wordpress导出乱码【MySQL】索引与B树 索引概念前导硬件软件方面 索引的理解单个page多个page引入B树B树的特征为什么B树做索引优于其他数据结构#xff1f;聚簇索引与非聚簇索引辅助索引 索引的创建主键索引的创建和查看唯一键索引的创建和查看普通索引的创建和查看复合索引全文索引索引的其他… 【MySQL】索引与B树 索引概念前导硬件软件方面 索引的理解单个page多个page引入B树B树的特征为什么B树做索引优于其他数据结构聚簇索引与非聚簇索引辅助索引 索引的创建主键索引的创建和查看唯一键索引的创建和查看普通索引的创建和查看复合索引全文索引索引的其他查找方式索引的删除 索引创建原则 索引概念
索引的本质就是一个数据结构
用于加快数据库表的查询和检索速度。索引可以理解为数据库表中的目录它保存了特定列的值和对应的行位置。
索引提高数据库的性能不用加内存不用改程序不用调sql只要执行正确的 create index 查询速度就可能提高成百上千倍。查询速度的提高是以插入、更新、删除的速度为代价的这些写操作增加了大量的IO。所以它的价值在于提高一个海量数据的检索速度。
常见索引分为 主键索引(primary key) 唯一索引(unique) 普通索引(index) 全文索引(fulltext)–解决中子文索引问题。
使用方法
alter table 表名 add index(列名);前导
硬件
MySQL 给用户提供存储服务而存储的都是数据数据在磁盘这个外设当中 磁盘的物理结构 数据库文件本质其实就是保存在磁盘的盘片当中。也就是上面的一个个小格子中就是我们经常所说的扇区。当然数据库文件很大也很多一定需要占据多个扇区。
我们在使用Linux所看到的大部分目录或者文件其实就是保存在硬盘当中的
找到一个文件本质就是在磁盘找到所有保存文件的扇区。而我们能够定位任何一个扇区那么便能找到所有扇区因为查找方式是一样的 柱面(磁道): 多盘磁盘每盘都是双面大小完全相等。那么同半径的磁道整体上便构成了一个柱面每个盘面都有一个磁头那么磁头和盘面的对应关系便是1对1的 所以我们只需要知道磁头、柱面(等价于磁道)、扇区对应的编号。即可在磁盘上定位所要访问的扇区。这种磁盘数据定位方式叫做 CHS 。不过实际系统软件使用的并不是 CHS 但是硬件是而是 LBA 一种线性地址可以想象成虚拟地址与物理地址。系统将 LBA 地址最后会转化成为 CHS 交给磁盘去进行数据读取。
小结 我们现在已经能够在硬件层面定位任何一个基本数据块了(扇区)。但是在系统软件上就不是直接按照扇区(512字节部分4096字节),进行IO交互了这是因为如果操作系统直接使用硬件提供的数据大小进行交互那么系统的IO代码就和硬件强相关换言之如果硬件发生变化系统必须跟着变化另外目前来看单次IO 512字节还是太小了。IO单位小意味着读取同样的数据内容需要进行多次磁盘访问会带来效率的降低。 **文件系统读取基本单位就不是扇区而是数据块。既系统读取磁盘是以块为单位的基本单位是【4KB】 **
磁盘随机访问(Random Access)与连续访问(Sequential Access)
随机访问本次IO所给出的扇区地址和上次IO给出扇区地址不连续这样的话磁头在两次IO操作之间需要作比较大的移动动作才能重新开始读/写数据。连续访问如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的那磁头就能很快的开始这次IO操作这样的多个IO操作称为连续访问。
因此尽管相邻的两次IO操作在同一时刻发出但如果它们的请求的扇区地址相差很大的话也只能称为随机访问而非连续访问。 磁盘是通过机械运动进行寻址的随机访问不需要过多的定位故效率比较高
软件方面
而 MySQL 作为一款应用软件可以想象成一种特殊的文件系统。它有着更高的IO场景所以为了提高基本的IO效率 MySQL 进行IO的基本单位是 16KB
mysql show global status like innodb_page_size;
-------------------------
| Variable_name | Value |
-------------------------
| Innodb_page_size | 16384 |
-------------------------
磁盘这个硬件设备的基本单位是 512 字节而 MySQL InnoDB引擎 使用 16KB 进行IO交互。即MySQL 和磁盘进行数据交互的基本单位是 16KB 。这个基本数据单元在 MySQL 这里叫做page MySQL 中的数据文件是以page为单位保存在磁盘当中的。 MySQL 的 CURD 操作都需要通过计算找到对应的插入位置或者找到对应要修改或者查询的数据 只要涉及计算就需要CPU参与而为了便于CPU参与一定要能够先将数据移动到内存当中
所以在特定时间内数据一定是磁盘中有内存中也有。后续操作完内存数据之后以特定的刷新策略刷新到磁盘。而这时就涉及到磁盘和内存的数据交互也就是IO。此时IO的基本单位就是Page。 为了更好的进行上面的操作 MySQL 服务器在内存中运行的时候在服务器内部就申请了被称为 Buffer Pool 的的大内存空间来进行各种缓存。其实就是很大的内存空间来和磁盘数据进行IO交互 为了更高的效率一定要尽可能的减少系统和磁盘IO的次数
总的来看MySQL和磁盘忽略掉文件缓冲区之后就是以page为单位交换的MySQL不管os搬运4kb数据多少次只在乎读写数据的时候有没有16kb
索引的理解
mysql create table if not exists user (- id int primary key, - age int not null,- name varchar(16) not null- );mysql desc user;
-----------------------------------------------
| Field | Type | Null | Key | Default | Extra |
-----------------------------------------------
| id | int(11) | NO | PRI | NULL | |
| age | int(11) | NO | | NULL | |
| name | varchar(16) | NO | | NULL | |
-----------------------------------------------mysql insert into user (id, age, name) values(3, 18, 杨过);
mysql insert into user (id, age, name) values(4, 16, 小龙女);
mysql insert into user (id, age, name) values(1, 16, 赵志敬);mysql show create table user\G
*************************** 1. row ***************************Table: user
Create Table: CREATE TABLE user (id int(11) NOT NULL,age int(11) NOT NULL,name varchar(16) NOT NULL,PRIMARY KEY (id)
) ENGINEInnoDB DEFAULT CHARSETutf8mysql select * from user;
--------------------
| id | age | name |
--------------------
| 1 | 16 | 赵志敬 |
| 3 | 18 | 杨过 |
| 4 | 16 | 小龙女 |
--------------------我们向一个具有主键的表中乱序插入数据发现数据会自动排序这是为什么提高查询效率
首先磁盘上有对应的文件数据文件数据最终会被预读到文件缓冲区mysql启动的时候会申请buffer pool,mysql层面上所有的page都会被放到buffer pool中 理解mysql中page的概念一个page是16KBmysql内部一定需要并且会存在大量的page,也就决定了mysql必须要将多个同时存在的page管理起来。要管理所有的mysql内的page,需要先描述再组织所以不要简单将page认为是一个内存块page内部也必须写入对应的管理信息如
struct page
{struct page*next;struct page*prev;char buffer[NUM];
};MySQL和磁盘进行IO交互的时候采用Page的方案进行交互的原因减少IO次数
单个page
MySQL 中要管理很多数据表文件而要管理好这些文件就需要先描述再组织 ,我们目前可以简单理解成一个个独立文件是有一个或者多个Page构成的
MySQL 会默认按照主键给我们的数据进行排序从上面的Page内数据记录可以看出数据是有序且彼此关联的插入数据时排序的目的就是优化查询的效率
多个page 单个page内部有页目录减少了page内部的检索次数提升了单page的搜索效率上图中多个page之间的连接关系从图中看出页目录在多个page中也是呈现顺序关系的如果是跨页搜索数据也只能从前往后顺序遍历每个页的页目录如果page一多这种检索方式会大大降低页与页之间数据搜索速度为了解决该问题我们同样使用目录的方式对每个页中的目录进行管理如下图
添加一个目录页新page来管理页目录子page目录页中的数据存放的就是指向的那一页中最小的数据。然后就可通过比较找到该访问那个Page进而通过指针找到下一个Page。
引入B树
如果底层的page很多会造成一级目录的数量变多那么我们对一级目录的遍历又变成了线性遍历这个时候需要再加一层 这就是B树把整个的B树称作mysql innode db下的索引结构一般我们建表的时候就是在该结构下进行CURD即使没有主键也是这样子的会有默认主键的
并不是所有的存储引擎的索引都是采用B树还有哈希索引等方式。主流的存储引擎是采用B树作为索引的数据结构。只有叶子结点采用链表进行级联这是因为这是B树的特性同时叶子结点进行级联可以满足范围查找有时候数据读取的时候跨页了叶子结点有指向next页的指针方便查找
B树的特征 非叶节点不保存数据只用来索引所有数据都保存在叶子节点。数据只在叶子结点保存并保存指向前后叶子结点的指针通过链表指针对叶子结点进行级联且叶子结点本身依关键字的自小而大顺序连接。
为什么B树做索引优于其他数据结构
线性数据结构 线性数据结构如链表、顺序表挨个挨个遍历上文就是因为线性表效率低下的问题一次次修改结构为B树。
二叉搜索树 这种数据结构的时间复杂度完全由查找分支的高度决定最优的时间复杂度是O(lgN)但是二叉搜索树可能退化为线性结构这个时候时间复杂度将会大大提高。
红黑树和AVL树 这两种数据结构很优秀。但是红黑树和AVL树本质上都是二叉树相同数据下树的高度会比B树高树的高度越高单次查找所淘汰的数据量越少效率越低。查找效率略逊于B树。
Hash 官方的索引实现方式中 MySQL 的索引是支持Hash的不过 InnoDB 和 MyISAM 并不支持。哈希的查找效率是O(1),但是它不支持范围查找。
B树和B树的区别 B树 B树
B树的非叶节点中除了存放下一层的页目录也会存放数据这就导致了每个非叶节点存放的下一层的页目录变少可能会增加整颗树的高度增加IO次数。B树的叶节点之间没有采用链式结构进行连接。范围查找需要重新遍历整棵树。
聚簇索引与非聚簇索引
像innodb存储引擎那样把B树和数据存放在一起称为聚簇索引
MyISAM 存储引擎-主键索引 MyISAM 引擎同样使用B树作为索引结果叶节点的data域存放的是数据记录的地址。下图为 MyISAM表的主索引 Col1 为主键 MyISAM 最大的特点是将索引Page和数据Page分离也就是叶子节点没有数据只有对应数据的地址。这种方式叫做非聚簇索引
聚簇索引与非聚簇索引的区别在底层看来就是创建表的时候MySQL文件系统中聚簇索引有两个文件非聚簇索引的表有三个文件
辅助索引
MyISAM辅助索引
MySQL 除了默认会建立主键索引外我们用户也有可能建立按照其他列信息建立的索引一般这种索引可以叫做辅助普通索引。对于 MyISAM ,建立辅助普通索引和主键索引没有差别无非就是主键不能重复而非主键可重复。MyISAM存储引擎可以在一张表中建立多个索引下图就是基于 MyISAM 的 Col2 建立的索引和主键索引没有差别
innodb的辅助普通索引 索引的叶子结点只存主键 InnoDB 除了主键索引用户也会建立辅助普通索引我们以上表中的 Col3 建立对应的辅助索引 InnoDB的非主键索引中叶子节点并没有数据而只有对应记录的key值。所以通过辅助普通索引找到目标记录需要两遍索引首先检索辅助索引获得主键然后用主键到主索引中检索获得记录。这种过程就叫做回表查询
为何InnoDB针对这种辅助普通索引的场景不给叶子节点也附上数据呢 表的主键索引数据如果辅助索引也有数据太浪费空间了
索引的创建
主键索引的创建和查看
--直接指明主键
mysql create table user1(id int primary key, name varchar(30));--与第一种方式类似
mysql create table user2(id int , name varchar(30),primary key(id));--创建表之后添加主键
mysql create table user3(id int , name varchar(30));
mysql alter table user3 add primary key(id);查看索引
mysql show index from user1\G
*************************** 1. row ***************************Table: user1Non_unique: 0Key_name: PRIMARY--索引名Seq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment:
Index_comment: 一个表中最多有一个主键索引当然可以使符合主键 主键索引的效率高主键不可重复 创建主键索引的列它的值不能为null且不能重复 主键索引的列基本上是int
唯一键索引的创建和查看
-- 在表定义时在某列后直接指定unique唯一属性
mysql create table user4(id int primary key, name varchar(30) unique);-- 创建表时在表的后面指定某列或某几列为unique
mysql create table user5(id int primary key, name varchar(30), unique(name));
Query OK, 0 rows affected (0.02 sec)
--先建表然后再添加唯一键
mysql create table user6(id int primary key, name varchar(30));
mysql alter table user6 add unique(name);
查看索引
mysql show index from user6\G
*************************** 1. row ***************************Table: user6Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment:
Index_comment:
*************************** 2. row ***************************Table: user6Non_unique: 0Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment: 一个表中可以有多个唯一索引 查询效率高 如果在某一列建立唯一索引必须保证这列不能有重复数据 如果一个唯一索引上指定not null等价于主键索引
普通索引的创建和查看
--在表的定义最后指定某列为索引
mysql create table user8(id int primary key,- name varchar(20),- email varchar(30),- index(name)- ); --
mysql create table user9(id int primary key, name varchar(20), email- varchar(30));
--创建完表以后指定某列为普通索引
mysql alter table user9 add index(name);mysql create table user10(id int primary key, name varchar(20), email varchar(30));
---- 创建一个索引名为 myindex 的索引
mysql create index myindex on user10(name);查看索引
mysql show index from user10\G
*************************** 1. row ***************************Table: user10Non_unique: 0Key_name: PRIMARYSeq_in_index: 1Column_name: idCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREEComment:
Index_comment:
*************************** 2. row ***************************Table: user10Non_unique: 1Key_name: myindex--索引名Seq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment: 复合索引
--name和email共同作为索引
mysql alter table user10 add index(name,email);
mysql show index from user10\G
*************************** 1. row ***************************Table: user10Non_unique: 1Key_name: nameSeq_in_index: 1Column_name: nameCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment:
*************************** 2. row ***************************Table: user10Non_unique: 1Key_name: nameSeq_in_index: 2Column_name: emailCollation: ACardinality: 0Sub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment:
Index_comment:
创建的复合索引其实在一颗B树上发现name和email的索引名称一样复合索引的作用在于指定多个字段构建一颗B树如果需要高频的通过name找到email的操作就可以构建复合索引这样就避免了回表查询通过索引找另一个索引的方式叫索引覆盖
全文索引
当对文章字段或有大量文字的字段进行检索时会使用到全文索引。MySQL提供全文索引机制但是有要求要求表的存储引擎必须是MyISAM而且默认的全文索引支持英文不支持中文。如果对中文进行全文检索
mysql CREATE TABLE articles (- id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,- title VARCHAR(200),- body TEXT,- FULLTEXT (title,body)--创建全文索引- )engineMyISAM;mysql INSERT INTO articles (title,body) VALUES- (MySQL Tutorial,DBMS stands for DataBase ...),- (How To Use MySQL Well,After you went through a ...),- (Optimizing MySQL,In this tutorial we will show ...),- (1001 MySQL Tricks,1. Never run mysqld as root. 2. ...),- (MySQL vs. YourSQL,In the following database comparison ...),- (MySQL Security,When configured properly, MySQL ...);mysql select * from articles;
---------------------------------------------------------------------
| id | title | body |
---------------------------------------------------------------------
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
| 2 | How To Use MySQL Well | After you went through a ... |
| 3 | Optimizing MySQL | In this tutorial we will show ... |
| 4 | 1001 MySQL Tricks | 1. Never run mysqld as root. 2. ... |
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
| 6 | MySQL Security | When configured properly, MySQL ... |
---------------------------------------------------------------------
--使用如下查询方式虽然查询出数据但是没有使用到全文索引:
mysql select * from articles where body like %database%;
-----------------------------------------------------------------
| id | title | body |
-----------------------------------------------------------------
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
-----------------------------------------------------------------
--使用explain 检查是否使用了索引
mysql explain select * from articles where body like %database%\G
*************************** 1. row ***************************id: 1select_type: SIMPLEtable: articlespartitions: NULLtype: ALL
possible_keys: NULLkey: NULLkey_len: NULL--key为nul表示没有使用索引ref: NULLrows: 6filtered: 16.67Extra: Using where--使用全文索引
--返回在title和body列中包含database关键词的所有文章记录。
mysql select * from articles where match(title,body) against(database);
-----------------------------------------------------------------
| id | title | body |
-----------------------------------------------------------------
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
-----------------------------------------------------------------mysql explain select * from articles where match(title,body) against(database)\G
*************************** 1. row ***************************id: 1select_type: SIMPLEtable: articlespartitions: NULLtype: fulltext--索引类型
possible_keys: titlekey: title--使用了titlekey_len: 0ref: constrows: 1filtered: 100.00Extra: Using where索引的其他查找方式
--方式一
show keys from 表名;
--方式二常用
show index from 表名;
----方式三
desc 表名;mysql show index from test1\G;
*************************** 1. row ***************************Table: test1Non_unique: 0Key_name: PRIMARY--索引名称Seq_in_index: 1Column_name: id--以id列为索引构建的B树Collation: ACardinality: 0Sub_part: NULLPacked: NULLNull: Index_type: BTREE--索引类型B树Comment:
Index_comment: 索引的删除
删除主键索引
alter table 表名 drop primary key;其他索引的删除
--索引名就是show keys from 表名中的 Key_name 字段
alter table 表名 drop index 索引名;--drop index 索引名 on 表名
mysql drop index name on user9;索引创建原则
有主键和唯一键约束的字段自带索引
某一列频繁的被作为查询条件
唯一性太差的列不适合作为索引即使这一列被频繁查询
更新频繁的字段不适合作为索引
不会出现在where子句中的字段不该创建索引