データのクラスタリング

インデックスの強力さの2つ目

クラスタという言葉は、色々な分野で使われています。例えば、英語でstar cluster(星団)は、星の集団のことを言います。また、コンピュータクラスタは、一定の範囲内で動作するコンピュータの集団です。その目的としては、複雑な問題を解決するため(高性能クラスタ)であったり、可用性を高めるため(フェイルオーバクラスタ)であったりします。一般的にクラスタとは、何らかの集団に関係することであると言えます。

コンピューティングの世界においては、もう1つ別の種類のクラスタがあります。誤解されやすい言葉ですが、それはデータクラスタです。データのクラスタ化とは、少ないIO処理でアクセスできるように、連続的にアクセスされるデータを近くに保存することを言います。データクラスタは、データベースチューニングにおいて、非常に重要な役割を果たします。コンピュータクラスタという言葉は、データベースの話をする上でも重要なものです。これが、 クラスタという単語があいまいになってしまう一因でもあります。「データベースのパフォーマンスを改善するのに、クラスタを使いましょう」という文は、コンピュータクラスタの話をしている可能性もあるし、データクラスタのことかもしれません。この章では、クラスタとは主に データクラスタのことであるとして、話を進めていきます。

協力してください

この記事が気に入ったら、私の書いた本「SQLパフォーマンス詳解」や私によるトレーニングもきっと気にいるはず。

SQLデータベースにおける最もシンプルなデータクラスタは、行です。データベースは、ある行の全ての列を可能な限り同じデータベースブロックに保存します。1つのブロックにデータが収まり切らない時だけがその例外になります。ラージオブジェクト(LOB)型が使われている場合などがそれに当たります。

列志向データベース

列志向データベースあるいはカラムナデータベースは、テーブルを列をベースに並べたデータベースです。これは、多くの行に一度にアクセスするけれど、選択する列は少ない時に有利なモデルです。このようなアクセスパターンは、データウェアハウス(OLAP)で非常に一般的です。

インデックスはデータをクラスタ化できます。この原則は、既に第1章1, 「 SQLインデックスの内部構造」で説明しました。インデックスリーフノードは、近い値が隣同士になるように、インデックスを作った列を並べ替えて保存します。つまりインデックスは、近い値を行のクラスタとして構成しているわけです。データをクラスタ化するこの機能は、 インデックスの強力さの2つ目として、非常に重要です。

注記

Bツリーの走査がインデックスの強力さの1つ目でした。

クラスタ化が、その2つ目になります。

以降の節では、データのクラスタ化のためにどのようにインデックスを使い、またどのようにクエリのパフォーマンスを向上させるかについて、説明していきます。

この説明が気に入れば、きっとこの本も気に入るはず。

著者について

Markus Winand氏は、開発者がSQLパフォーマンスを改善するお手伝いをしています。彼は、SQL Performance Explainedの著者でもあり、出張トレーニングや http://winand.at/でのリモート講義も行っています。

データのクラスタリング

協力してください

列志向データベース

注記

目次

著者について

目次

最新ニュース

Connect with Markus Winand

データのクラスタリング

協力してください

列志向データベース

注記

目次

著者について

彼の本

目次

最新ニュース

Connect with Markus Winand