検索ツリー (Bツリー) がインデックスを高速に動作させる

インデックスリーフノードは、任意の順序で保存され、ディスク上の保存場所は、インデックスの順序に従った論理的な場所とは関係ありません。これは、ページの順序がバラバラの電話帳のようなものです。この場合、「タナカ」を探そうとしてまず開いたページに「サトウ」があった時、サトウの後にタナカがあるとは限らないことになります。データベースには、バラバラに並ぶページ間を素早く検索できる別の構造が必要になります。それが、バランス検索木、略してBツリーです。

図1.2Bツリーの構造

図1.2は、要素が30個あるインデックスの例を表しています。双方向連結リストによって、リーフノード間の論理的な順序が表現されています。ルートノードとブランチノードによって、リーフノード間の素早い検索ができるようになっています。

左側は、ブランチノードと、それが指し示すリーフノードを拡大した図です。各ブランチノードの中身は、それぞれのリーフノードの最大値です。最初のリーフノードの最大値は46なので、ブランチノードの最初の要素も 46になっています。その他のリーフノードに関しても同様なので、ブランチノードの要素は46、53、57、83になっているというわけです。この方法に従って、全てのリーフノードがブランチノードに含まれるように、ブランチノードのレイヤが作られていきます。

協力してください

この記事が気に入ったら、私の書いた本「SQLパフォーマンス詳解」や私によるトレーニングもきっと気にいるはず。

次のレイヤも同じように作られますが、最初のブランチノードのさらに上のレベルになります。この手順は、全てのキーが1つのノード、すなわちルートノードに収まるまで続けます。この構造は、ルートノードからリーフノードまでの深さがどこでも同じであることから、バランス検索木と呼ばれます。

注記

Bツリーは、二分木(binary tree)ではなく、バランス木(balanced tree)です。

ひとたびインデックスが作られると、データベースはインデックスを自動的にメンテナンスしていきます。全てのinsert、delete、updateをインデックスに適用し、ツリーの深さを同じに保ちます。このため、書き込みに関してはメンテナンスのオーバーヘッドがあります。第8章8, 「データの変更」では、この動作について詳しく説明しています。

図1.3Bツリーの走査

図1.3は、キー「57」の検索を表した、インデックスの一部です。ツリーの走査は図の左側のルートノードから始まります。各エントリが、検索する値「57」以上(>=)であるかどうかを確認します。この図では、エントリ83がそれにあたります。データベースは、対応するブランチノードへのポインタをたどり、ツリーの走査がリーフノードに達するまで同じ手順を繰り返します。

重要

Bツリーは、データベースがリーフノードを高速に見つけるのに役立ちます。

このツリーの走査は非常に効率的な処理なので、ここでは インデックスの強力さの1つ目としましょう。この仕組みは、巨大なデータセットに対してもほとんど一瞬で処理できます。これは、ツリーのバランス構造が主な理由で、このために全ての要素に同じステップ数で到達できます。さらに、ツリーの深さが対数的に増えるということも理由です。つまり、リーフノード数の増加に比べ、ツリーの深さの増大は非常に遅いということです。実際には、数百万レコードのインデックスのツリーの深さは、4あるいは5です。深さが6に達することはめったにありません。コラム「対数的スケーラビリティ」で、さらに詳しく説明しています。

対数的スケーラビリティ

数学的には、与えられた底に対するある値の対数とは、その値を割り出すために必要な累乗の回数、つまり指数のことです。[Wikipedia].

検索木において、底はブランチノード1つに保存されるエントリの数であり、指数は木の深さになります。図1.2の例では、ノードあたり4つまでのエントリを持ち、木の深さは3なので、インデックスは最大64(4³)のエントリを保持できます。木の深さを1レベル増やすだけで、256(4⁴)エントリを保持できるようになるのです。木の深さを増やすたびに、インデックスの保持できるエントリ数は 4倍に増えていきます。対数はこの関数の逆関数になるので、木の深さはlog₄(インデックスのエントリ数)となります。

木の深さ	インデックスのエントリ数
3	64
4	256
5	1,024
6	4,096
7	16,384
8	65,536
9	262,144
10	1,048,576

対数的な数字の増加により、例のインデックスでは100万レコードを 10レベルの木で検索することができます。しかし、現実世界でのインデックスはこれよりさらに効率的です。木の深さや検索のパフォーマンスに大きな影響を及ぼすのは、各ノードに格納するエントリの数です。数学的に言えば、この数が対数の底になります。底が大きければ、木の深さは浅くなり、木の走査も高速になります。

データベースは、この仕組みを最大限に使い、通常、数百の単位で可能な限り各ノードにエントリを格納します。つまり、新しいレベルを追加することで、数百倍多くのエントリを扱えるようになるわけです。

ヒント

Bツリーシミュレータ

前へ次へ

You can’t learn everything in one day. Subscribe the newsletter via E-Mail, Bluesky or RSS to gradually catch up. Have a look at modern-⁠sql.com as well.

著者について

Markus Winand氏は、開発者がSQLパフォーマンスを改善するお手伝いをしています。彼は、SQL Performance Explainedの著者でもあり、出張トレーニングや http://winand.at/でのリモート講義も行っています。

検索ツリー (Bツリー) がインデックスを高速に動作させる

図1.2Bツリーの構造

協力してください

注記

図1.3Bツリーの走査

重要

対数的スケーラビリティ

ヒント

著者について

目次

最新ニュース

Connect with Markus Winand

検索ツリー (Bツリー) がインデックスを高速に動作させる

図1.2Bツリーの構造

協力してください

注記

図1.3Bツリーの走査

重要

対数的スケーラビリティ

ヒント

著者について

彼の本

目次

最新ニュース

Connect with Markus Winand