データ量がパフォーマンスに与える影響

データベースに保存されたデータの量は、そのパフォーマンスに大きな影響を与えます。データベースに追加のデータが加わることによりあるクエリが遅くなるのは、よくあることです。しかし、データ量が2倍になった時の影響はどの位でしょうか？また、その影響の比率を改善するにはどうしたらよいでしょうか？これらは、データベースのスケーラビリティを考える上で重要な問いかけです。

例として、2つの異なるインデックスを使った時の以下のクエリの応答時間を調べてみましょう。インデックスの定義は、今のところは伏せておきます。これ以降の解説の中で、明らかになるでしょう。

SELECT count(*)
  FROM scale_data
 WHERE section = ?
   AND id2 = ?

SECTION列はこのクエリにおいて、データ量を制御するという特別な役割があります。SECTIONの数が増えると、選択される行も増えるのです。図3.1では、 SECTIONが小さい場合の応答時間を示しています。

図3.1パフォーマンスの比較

2つのインデックスの種類によって、明らかなパフォーマンスの違いがあるのが分かります。どちらの応答時間も0.1秒以下なので、多くの場合、遅いクエリの方でも十分な速さと言えるかもしれません。しかし、このパフォーマンスのグラフはたった1つのテストした点を示しているに過ぎません。スケーラビリティを議論するということは、データ量のような環境パラメータが変化した時の、パフォーマンスへの影響を見なくてはなりません。

重要

スケーラビリティは、パフォーマンスがデータ量のような要素に依存することを示しています。

パフォーマンス値は、スケーラビリティの図におけるある時点の値でしかありません。

図3.2は、 SECTIONの数、つまりデータ量の増加に応じた応答時間を示したものです。

図3.2データ量に対するスケーラビリティ

チャートは、どちらのインデックスでも応答時間が増加することを示しています。図の右側を見ると、データ量が100倍になった時、速い方のクエリが元の2倍かかるようになった一方で、遅いクエリの応答時間は20倍増加し、1秒を超えてしまっています。

ヒント

付録C, 「Example Schema」では、OracleやPostgreSQL、SQL Serverでこのテストを再現するためのスクリプトを紹介しています。

SQLクエリの応答時間は、多くの要因に依存します。データ量はその1つです。クエリが、あるテスト環境下では十分に高速でも、本番環境で同様に十分高速とは言えないこともあります。これは、本番環境のデータのごく一部しか開発環境に存在しない場合は特にそうです。

とは言え、データ量が増えた時にクエリが遅くなってしまこと自体は驚くべきことではありません。しかし、2つのインデックス間のここまでの際立った違いは、予想していなかったことです。この比率の違いの理由は何なのでしょうか？

両方の実行計画を比較してみれば、理由を見つけるのは簡単なはずです。

Db2 (LUW)

-------------------------------------------------------------
ID | Operation           |                        Rows | Cost
 1 | RETURN              |                             |  208
 2 |  GRPBY (COMPLETE)   |         1 of 4456 (   .02%) |  208
 3 |   IXSCAN SCALE_SLOW | 4456 of 135449700 (   .00%) |  208

Explain Plan
-------------------------------------------------------------
ID | Operation           |                        Rows | Cost
 1 | RETURN              |                             |  296
 2 |  GRPBY (COMPLETE)   |         1 of 4456 (   .02%) |  296
 3 |   IXSCAN SCALE_FAST | 4456 of 135449700 (   .00%) |  296

MySQL

+------+------------+---------+-------+------+-----------------------+
| type | key        | key_len | ref   | rows | Extra                 |
+------+------------+---------+-------+------+-----------------------+
| ref  | scale_slow | 6       | const |    1 | Using index condition |
+------+------------+---------+-------+------+-----------------------+

+------+------------+---------+-------------+------+-------+
| type | key        | key_len | ref         | rows | Extra |
+------+------------+---------+-------------+------+-------+
| ref  | scale_fast | 12      | const,const |    1 |       |
+------+------------+---------+-------------+------+-------+

Oracle

------------------------------------------------------
| Id | Operation         | Name       | Rows  | Cost |
------------------------------------------------------
|  0 | SELECT STATEMENT  |            |     1 |  972 |
|  1 |  SORT AGGREGATE   |            |     1 |      |
|* 2 |   INDEX RANGE SCAN| SCALE_SLOW |  3000 |  972 |
------------------------------------------------------

------------------------------------------------------
| Id   Operation         | Name       | Rows  | Cost |
------------------------------------------------------
|  0 | SELECT STATEMENT  |            |     1 |   13 |
|  1 |  SORT AGGREGATE   |            |     1 |      |
|* 2 |   INDEX RANGE SCAN| SCALE_FAST |  3000 |   13 |
------------------------------------------------------

SQL Server

上の実行計画ではscale_slowを使い、一方で下の実行計画ではscale_fastを使っています。どちらもIndex Seekを使っていることに注意してください。つまり、なぜ一方のクエリが他方よりも遅いのかのヒントは与えてくれません。

STATISTICS PROFILE ONを使うと、違いがはっきりします。

|--Compute Scalar
   |--Stream Aggregate(Count(*))
      |--Index Seek(OBJECT:scale_slow),
         SEEK:(scale_data.section=2),
         WHERE:(scale_data.id2=1234) ORDERED FORWARD)

|--Compute Scalar
   |--Stream Aggregate(Count(*))
      |--Index Seek(OBJECT:(scale_data.scale_fast),
         SEEK:(scale_data.section=1)
          AND  scale_data.id2=1234) ORDERED FORWARD)

実行計画は、違うインデックスを使っていること以外はほとんど同じです。コスト値がスピードの違いに影響してはいますが、その理由は実行計画からは分かりません。

これはどうやら、「遅いインデックス問題」にぶち当たってしまったようです。インデックスを使っているにもかかわらず、クエリが遅いのです。今となっては、「壊れたインデックス」の都市伝説も真実ではないと分かっているのにです。ここで、インデックスの走査を遅くする2つの原因を思い出してみましょう。それは、(1) テーブルへのアクセス、(2) 広い範囲のインデックスのスキャン、でした。

協力してください

この記事が気に入ったら、私の書いた本「SQLパフォーマンス詳解」や私によるトレーニングもきっと気にいるはず。

どちらの実行計画もTABLE ACCESS BY INDEX ROWIDの表示はないので、一方の実行計画ではもう一方よりも広い範囲のインデックスをスキャンしているに違いありません。それでは、インデックスをスキャンする範囲は、実行計画のどこに表示されているのでしょうか？もちろん、述語情報のところにあります！

ヒント

述語情報に注意しましょう。

述語情報は、上の例のように省略して構わない不要な情報では決してありません。述語情報のない実行計画は、不完全なものだと言えるでしょう。上の例のような実行計画では、パフォーマンスの違いが起きる理由を確かめることはできません。完全な実行計画を見ると、その違いが分かります。

Db2 (LUW)

Explain Plan
-------------------------------------------------------------
ID | Operation           |                        Rows | Cost
 1 | RETURN              |                             |  208
 2 |  GRPBY (COMPLETE)   |         1 of 4456 (   .02%) |  208
 3 |   IXSCAN SCALE_SLOW | 4456 of 135449700 (   .00%) |  208

Predicate Information
 3 - START (Q1.SECTION = ?)
      STOP (Q1.SECTION = ?)
      SARG (Q1.ID2 = ?)

Explain Plan
-------------------------------------------------------------
ID | Operation           |                        Rows | Cost
 1 | RETURN              |                             |  296
 2 |  GRPBY (COMPLETE)   |         1 of 4456 (   .02%) |  296
 3 |   IXSCAN SCALE_FAST | 4456 of 135449700 (   .00%) |  296

Predicate Information
 3 - START (Q1.SECTION = ?)
     START (Q1.ID2 = ?)
      STOP (Q1.SECTION = ?)
      STOP (Q1.ID2 = ?)

コスト値にも注意しましょう。2番目のインデックスはより効率がよいですが、 1番目のインデックスの方がコスト値が低いので、両方のインデックスが存在するとオプティマイザは効率の悪い方を選んでしまいます。

MySQL

+------+------------+---------+-------+------+-----------------------+
| type | key        | key_len | ref   | rows | Extra                 |
+------+------------+---------+-------+------+-----------------------+
| ref  | scale_slow | 6       | const |    1 | Using index condition |
+------+------------+---------+-------+------+-----------------------+

+------+------------+---------+-------------+------+-------+
| type | key        | key_len | ref         | rows | Extra |
+------+------------+---------+-------------+------+-------+
| ref  | scale_fast | 12      | const,const |    1 |       |
+------+------------+---------+-------------+------+-------+

Oracle

------------------------------------------------------
| Id | Operation         | Name       | Rows  | Cost |
------------------------------------------------------
|  0 | SELECT STATEMENT  |            |     1 |  972 |
|  1 |  SORT AGGREGATE   |            |     1 |      |
|* 2 |   INDEX RANGE SCAN| SCALE_SLOW |  3000 |  972 |
------------------------------------------------------

Predicate Information (identified by operation id):
   2 - access("SECTION"=TO_NUMBER(:A))
       filter("ID2"=TO_NUMBER(:B))

------------------------------------------------------
| Id   Operation         | Name       | Rows  | Cost |
------------------------------------------------------
|  0 | SELECT STATEMENT  |            |     1 |   13 |
|  1 |  SORT AGGREGATE   |            |     1 |      |
|* 2 |   INDEX RANGE SCAN| SCALE_FAST |  3000 |   13 |
------------------------------------------------------

Predicate Information (identified by operation id):
   2 - access("SECTION"=TO_NUMBER(:A) AND "ID2"=TO_NUMBER(:B))

SQL Server

グラフィカルな実行計画の違いを確認するには、マウスをIndex Seekの上に移動し、"Predicate"と "Seek Perdicates"を比べます。

|--Compute Scalar
   |--Stream Aggregate(Count(*))
      |--Index Seek(OBJECT:scale_slow),
         SEEK:(scale_data.section=2),
         WHERE:(scale_data.id2=1234) ORDERED FORWARD)

|--Compute Scalar
   |--Stream Aggregate(Count(*))
      |--Index Seek(OBJECT:(scale_data.scale_fast),
         SEEK:(scale_data.section=1)
          AND  scale_data.id2=1234) ORDERED FORWARD)

最初の実行計画のWHERE述語には、インデックスでフィルターするとマークされています。これはつまり、スキャンするインデックスの範囲を狭めないということです。2つ目の実行計画ではどちらの述語もSEEKの配下にあり、これはSQL Serverにおいてはアクセス述語としてはたらきます。

注記

実行計画は、明確化のために単純化されています。アクセス述語とフィルタ述語の見分け方では、Oracleの実行計画の「Predicate Information」セクションを詳細に解説しています。

違いは明らかです。SCALE_SLOWインデックスを使った時は、 SECTIONが唯一のアクセス述語の条件になっています。データベースは、セクションの全ての行を読んでから、ID2のフィルタ述語に一致しない行を捨てています。そのため、セクションの行数によって応答時間が増えているのです。SCALE_FAST インデックスでは、データベースは全ての条件をアクセス述語として使っています。応答時間は、選択される行数によって増えます。

重要

フィルタ述語は不発弾のようなものです。いつ爆発するか分かったものではありません。

パズルの最後のピースは、インデックスの定義です。実行計画からインデックス定義を再構築できるでしょうか？

SCALE_SLOWインデックスの定義は、SECTION列から始まらなくてはなりません。でないと、アクセス述語としては使えません。 ID2に対する条件はアクセス述語ではないので、インデックスの定義においてSECTIONの後にはないでしょう。つまり SCALE_SLOWインデックスは、最低でも3カラムを含み、 SECTIONが最初、ID2は2番目ではないというものになっているはずです。以下が、このテストで使ったインデックスそのものです。

CREATE INDEX scale_slow ON scale_data (section, id1, id2)

ID1が2番目にあるので、データベースは ID2をアクセス述語として使うことはできません。

一方、SCALE_FASTインデックスの定義では、 SECTIONとID2がアクセス述語に使えるように、これらが最初の2つでなければなりません。これ以上は順序については言えることはありません。テストで使ったインデックスは、SECTION から始まり、3番目にID1が追加であるというものです。

CREATE INDEX scale_fast ON scale_data (section, id2, id1)

ID1が最後に追加されただけなので、インデックスのサイズは SCALE_SLOWと同じです。しかし、インデックスのサイズによって違いが生まれたのではという印象を持ったのではないでしょうか。

著者について

Markus Winand氏は、開発者がSQLパフォーマンスを改善するお手伝いをしています。彼は、SQL Performance Explainedの著者でもあり、出張トレーニングや http://winand.at/でのリモート講義も行っています。

データ量がパフォーマンスに与える影響

図3.1パフォーマンスの比較

重要

図3.2データ量に対するスケーラビリティ

ヒント

協力してください

ヒント

注記

重要

関連情報

著者について

目次

最新ニュース

Connect with Markus Winand

データ量がパフォーマンスに与える影響

図3.1パフォーマンスの比較

重要

図3.2データ量に対するスケーラビリティ

ヒント

協力してください

ヒント

注記

重要

関連情報

著者について

彼の本

目次

最新ニュース

Connect with Markus Winand