《MYSQL數據庫在MySQL中實現二分查找的詳細教程》要點:
本文介紹了MYSQL數據庫在MySQL中實現二分查找的詳細教程,希望對您有用。如果有疑問,可以聯系我們。
MYSQL必讀給定一個升序排列的自然數數組,數組中包含重復數字,例如:[1,2,2,3,4,4,4,5,6,7,7].問題:給定任意自然數,對數組進行二分查找,返回數組正確的位置,給出函數實現.注:連續相同的數字,返回第一個匹配位置還是最后一個匹配位置,由函數傳入參數決定.
MYSQL必讀我為什么會出這道題目?
MYSQL必讀??? 二分查找在數據庫內核實現中非常重要
MYSQL必讀??? 在數據庫的內核實現中,二分查找是一個非常重要的邏輯,幾乎99%以上的SQL語句(所有索引上的范圍掃描/等值查詢/Unique查詢等),都會使用到二分查找進行數據的定位.
MYSQL必讀??? 考慮一個數據庫表t1(a int primary key, b int),表上的b字段有一個B+樹索引,表中記錄的b字段取值,就是題目中的[1,2,2,3,4,4,4,5,6,7,7]序列.此時,給定以下的兩條查詢語句,就是使用到了不同的二分查找邏輯:
MYSQL必讀??? SQL1:??
MYSQL必讀
select * from t1 where b > 4;
MYSQL必讀??? SQL2:?
MYSQL必讀
select * from t1 where b >= 4;
MYSQL必讀??? 針對SQL1,索引的二分查找,就需要跳過所有的4,從最后一個4之后開始返回所有記錄;針對SQL2,二分查找就需要定位到第一個4,然后順序讀取所有記錄.
MYSQL必讀??? 除此之外,針對數據庫中其他的查詢邏輯,二分查找還需要附帶更多的功能,例如:
MYSQL必讀??? SQL3:?
MYSQL必讀
select * from t1 where b < 2;
MYSQL必讀??? SQL4:
MYSQL必讀
select * from t1 where b <= 2;
MYSQL必讀??? 由于數據庫索引同時支持反向掃描,因此SQL3、SQL4的語句,都可以使用索引反向掃描.反向掃描時,SQL3需要定位到索引中的第一個2;而SQL4,則需要定位到索引的最后一個2,然后開始反向返回滿足查詢條件的索引記錄.
??? 二分查找在程序設計中,是一個十分基礎并且易錯的功能
MYSQL必讀??? 第一個真正正確的二分查找算法,在第一個二分查找實現之后的12年,才被發表出來.通過Google,輸入Binary Search或者是二分查找關鍵字,有大量的相關的文章或者博客討論此話題.
MYSQL必讀二分查找實現,需要注意的問題
MYSQL必讀本文不準備詳細介紹一個正確的二分查找應該是如何實現的,畢竟現在網上有著大量的正確版本.接下來,根據批改試卷過程中發現的一些問題,做一些簡單的分析,希望對大家實現一個有效的二分查找算法,甚至是一個數據庫內可用的二分查找算法,有所幫助.
問題一:是否檢查參數的有效性
MYSQL必讀大量的試卷,在給出此問題的解決算法時,直接拿著low,high參數開始進行計算,但是卻沒有檢查low/high參數.low/high是否相同,數組中是否存在記錄?low/high構成的區間是否有效?代碼的魯棒性不足.
MYSQL必讀在數據庫的二分查找實現中,一般是對一個索引頁面進行二分查找.索引頁面中有可能根本不存在用戶的記錄(索引頁面中的記錄全部被刪除,又沒有與兄弟頁面合并時),此時,low/high均為0,此時如果根據low/high計算出來的mid進行記錄的讀取,就存在邏輯錯誤.
問題二:二分查找中值的計算
MYSQL必讀這是一個經典的話題,如何計算二分查找中的中值?試卷中,大家一般給出了兩種計算方法:
MYSQL必讀算法一: mid = (low + high) / 2
MYSQL必讀算法二: mid = low + (high C low)/2
MYSQL必讀乍看起來,算法一簡潔,算法二提取之后,跟算法一沒有什么區別.但是實際上,區別是存在的.算法一的做法,在極端情況下,(low + high)存在著溢出的風險,進而得到錯誤的mid結果,導致程序錯誤.而算法二能夠保證計算出來的mid,一定大于low,小于high,不存在溢出的問題.
MYSQL必讀回到數據庫二分查找,數據庫的一個索引頁面(大小一般是8k或者是16k),能夠存儲的索引記錄是有限的,因此肯定不會出現(low + high)溢出的風險.這也是為什么InnoDB中的中值,采用的就是算法一的實現.但是,作為一個嚴謹的程序設計人員,還是推薦使用算法二,將任何潛在的風險,扼殺于搖籃之中.
問題三:遞歸實現二分查找
MYSQL必讀超過一半的試卷,使用了遞歸調用的方式實現二分查找.不能說遞歸實現有錯,而是在于實現效率問題.總所周知,遞歸調用存在著壓棧/出棧的開銷,其效率是比較低下的.而以數據庫這樣一個極端優化代碼效率,提供快速查詢響應的系統來說,效率是第一位的.不建議使用遞歸方式實現二分查找,至少在數據庫內核實現中是不允許使用的.據我所知,所有的開源數據庫系統,例如:InnoDB,PostgreSQL都未采用遞歸方式實現二分查找.
問題四:如何查找第一個/最后一個等值
MYSQL必讀回到題目,要求根據傳入的參數不同,返回第一個/最后一個等值項.在本文的背景部分,我也解釋了此問題對應的數據庫查詢(>,>=查詢需求是不同的).在試卷中,超過80%的同學的答案都是先進行二分查找,待定位到相同值之后,再根據傳入的flag(用戶需求:flag = 1,返回第一個等值項;flag = 0,返回最后一個等值項),進行順序遍歷,直至定位到滿足條件的項.
MYSQL必讀同樣,不能說這個實現是錯的,但是也存在著性能問題.性能性能性能,永遠是數據庫內核實現考慮的重點之一(相信也是所有應用程序的一個指標).數據庫中,除了主鍵索引/Unique索引能夠保證鍵值唯一之外,很多二級輔助索引都是存在相同鍵值的,有時相同鍵值的項會超過千項(考慮一個用戶的訂單,或者是購買記錄).
MYSQL必讀假設一個索引頁面,保存著400項記錄,均為相同鍵值.此時,使用先二分查找,后順序遍歷的算法,二分查找只能使用一次,順序遍歷199次,最終對比了200次.效率非常之低.當然,我也欣喜的看到另外一小部分同學的做法(我期待看到的算法),用flag來糾正每次比較的最終結果.例如:比較相等(相等用0表示,大于為1,小于為-1),但是flag = 1,則返回糾正后的比較結果為1,需要移動二分查找的high到mid,繼續二分(反之,若flag = 0,則返回糾正后的結果為-1,需要移動二分查找的low到mid,繼續二分).如此一來,等值仍舊可以進行二分查找,最終的對比只需要9次,遠遠小于200次.
MYSQL必讀此問題,進一步引出了下一個問題,數據庫中如何實現一個通用的,更為復雜的二分查找算法?
問題五:數據庫中的二分查找實現舉例
MYSQL必讀數據庫中的二分查找,更為復雜,需要實現一個通用型的二分查找算法,使用于各種不同的SQL查詢場景.
MYSQL必讀InnoDB針對不同的SQL語句,總結出四種不同的Search Mode,分別為:
MYSQL必讀#define??? PAGE_CUR_G????????? 1??????? >查詢
MYSQL必讀#define??? PAGE_CUR_GE???????? 2??????? >=,=查詢
MYSQL必讀#define??? PAGE_CUR_L????????? 3??????? <查詢
MYSQL必讀#define??? PAGE_CUR_LE???????? 4??????? <=查詢
MYSQL必讀然后根據這四種不同的Search Mode,在二分查找碰到相同鍵值時進行調整.例如:若Search Mode為PAGE_CUR_G或者是PAGE_CUR_LE,則移動low至mid,繼續進行二分查找;若Search Mode為PAGE_CUR_GE或者是PAGE_CUR_L,則移動high至mid,繼續進行二分查找.
MYSQL必讀我們的TNT引擎,采用了與InnoDB不同的方案,但是也實現了相同的功能.TNT引擎針對相同鍵值的調整總結為下圖,在此我就不做解釋了,大家可以嘗試著自己進行分析.
MYSQL必讀/* 操作符 includeKey???? forward???? compare result: 1??? 0??????? -1 */
MYSQL必讀=============================================================================
MYSQL必讀>=??????????? 1??????????? 1??? |??????????? 1??????????? -1??????? -1
MYSQL必讀=???????????? 1??????????? 1??? |??????????? 1??????????? -1??????? -1
MYSQL必讀>???????????? 0??????????? 1??? |??????????? 1???????????? 1??????? -1
MYSQL必讀<???????????? 0??????????? 0??? |??????????? 1??????????? -1??????? -1
MYSQL必讀<=??????????? 1??????????? 0??? |??????????? 1???????????? 1??????? -1
MYSQL必讀=============================================================================