如何構建高性能MySQL索引?
介紹
上一篇文章中介紹了MySQL的索引基本原理以及常見的索引種類,這邊文章的重點在于如何構建一個高性能的MySQL索引,從中你可以學到如何分析一個索引是不是好索引,以及如何構建一個好的索引。
索引誤區多列索引一個索引的常見誤區是為每一列創建一個索引,如下面創建的索引:
CREATE TABLE `t` ( `c1` varchar(50) DEFAULT NULL, `c2` varchar(50) DEFAULT NULL, `c3` varchar(50) DEFAULT NULL, KEY `c1` (`c1`), KEY `c2` (`c2`), KEY `c3` (`c3`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
t表里有三列,并且為每列創建了一個索引。創建索引的人為了能夠快速訪問表中的任何一列,因此為每一列添加了一個單獨的索引。在多個列上創建索引通常并不能很好的提高MySQL查詢性能,雖然說MySQL 5.0之后引入了索引合并策略,可以將多個單列索引合并成一個索引,但這并不總是有效的。同時創建多個索引的時候還會增加數據插入的成本,在插入數據的時候需要同時維護多個索引的寫入操作。
索引的計算看下面這條sql語句:
select name from student where id + 1 = 5
即使我們在student表的id列上建立索引,上面的這條SQL語句也無法使用索引。SQL語句中索引字段不能是表達式的一部分,也不能是函數的參數。
索引的長度以及選擇性
盡量不要在一個很長的列上使用索引,否則會導致索引占用的空間很大,同時在進行數據的插入和更新的時候意味著更慢的速度。因此使用uuid列作為索引并不是一個好的選擇。從上一篇文章中我們可以知道,為了加快數據的訪問索引是需要常駐內存的,假如說我們把64位uuid作為索引,那么隨著表中數據量的增加索引的大小也在急劇增加。同時因為uuid并沒有順序性,因此在數據插入的時候都需要從根節點找到當前索引的插入位置,如果同一個節點中的索引大小達到上限,還會導致節點分裂,更加降低了插入速度。 創建索引另外一個需要考慮的是索引的選擇性,通常情況下我們會使用選擇性高的列作為索引,但是也不一定一直是這樣,下一節會介紹如何權衡索引的選擇性。
創建高性能索引選擇正確的索引順序在選擇索引的順序的時候有一個原則:將索引選擇性最高的列放在左側,同時索引的順序要與查詢索引的順序一致,并且要兼顧考慮排序和分組的需要。在一個多列B樹多列中索引的順序意味著索引首先按照最左側的列進行排序,其次是第二列。所以無論是where語句還是order by語句都需要盡量滿足這個順序,這樣才能更好的使用索引。
索引的選擇性
列的選擇性高的含義是通過這一列能夠更多的過濾掉無用的數據,舉個極端的例子,如果把自增id建成索引那么它的選擇性是最高的,因為會把無用的數據都過濾掉,只會剩下一條有效數據。我們可以通過下面的方式來簡單衡量某一個列的選擇性:
select count(distinct columnA)/count(*) as selectivity from table
當上面的數據越大的時候意味著columnA的選擇性越高。這種方式提供了一個衡量平均選擇性的辦法,但是也不一定是有效的,需要具體情況具體分析。
前綴索引當遇到特別長的列,但又必須要建立索引的時候可以考慮建立前綴索引。前綴索引的含義是把某一列的前N個字符作為索引,創建前綴索引的方式如下:
alter table test add key(columnA(5));
上面這個語句就是把columnA的前5個字符創建為前綴索引。前綴索引是一種使索引更小、更快的有效辦法。但是前綴所有有一個缺點:MySQL無法使用前綴索引來做order by和group by,也無法使用前綴索引做覆蓋掃描。
聚簇索引和非聚簇索引聚簇索引
聚簇索引代表一種數據的存儲方式,表示同一個結構中保存了B-Tree索引和數據行。也就是說當建立聚簇索引的時候實際的數據行存放在索引的葉子節點上。這也決定了每個表只能有一個聚簇索引。聚簇索引組織數據的方式如下圖所示:
從圖中可以看到索引的葉子節點和數據行是存放在一起的,這樣的好處是可以直接讀取到數據行。在創建表的時候如果我們不顯式指定聚簇索引,那么MySQL將會按照下面的邏輯來選擇聚簇索引:首先會通過主鍵列來聚集數據,如果沒有主鍵列那么會選擇唯一的非空索引來替代。如果還沒有這樣的索引那么會隱式的創建一個主鍵列來作為聚簇索引。 聚簇索引優點:1、相關數據存放在一起,檢索的時候降低IO的次數2、數據訪問更快3、使用覆蓋索引掃描的查詢可以直接使用節點中的主鍵值 在使用上面的優點的時候聚簇索引也有一定的缺點:1、聚簇索引將數據聚集在一起限制了插入速度,插入速度比較依賴于主鍵的順序2、更新索引的時候代價會變高3、二級索引的訪問的時候需要查找兩次
非聚簇索引
非聚簇索引通常被稱為二級索引,與聚簇索引的不同在于,非聚簇索引的葉子節點存放的是數據的行指針或者是一個主鍵值。這樣在查找數據的時候首先定位到葉子節點上的主鍵值(或者行指針),然后通過主鍵值再到聚簇索引中查找到對應的數據。從中我們可以看到對于非聚簇索引的查詢需要走兩次索引。下圖是一個非聚簇索引:
這個索引是InnoDB中的耳機索引,葉子節點中存儲的是索引和主鍵。對于MyISAM葉子節點存儲的是索引和行指針。
覆蓋索引如果一個索引包含或者說覆蓋所有需要查詢的字段的值,那么就稱為覆蓋索引。覆蓋索引可以極大的提高查詢的效率,如果我們的查詢中只查詢索引,而不用去回表那應該最好不過了。 通常我們使用explain關鍵字來查看一個查詢語句的執行計劃,通過執行計劃我們可以了解到查詢的細節。如果是覆蓋索引,我們會看到執行計劃的Extra列里有”Using Index”的信息。在查詢語句中一般我們希望是where條件中的語句盡量能被覆蓋,并且順序要跟索引的保持一致。還有一個需要注意的點是MySQL不能在索引中使用like操作,這樣會導致后面的索引失效。
后記本文主要講了幾種索引的原理以及如何構建一個高性能的索引。索引的優先是一個漸進的過程,隨著數據量和查詢語句的不同而發生變化,重要的是了解索引的原理,這樣做出正確的優化。下一篇文章中將會介紹explain關鍵字,教你如何來看執行計劃,以及如何判斷一個查詢語句是否需要優化的。