メインコンテンツまでスキップ
バージョン: 2.1

クエリオプティマイザ

現在の情報技術環境において、クエリオプティマイザーは複数の課題に直面しています。一方では、ユーザーからのますます複雑なクエリ文と多様なクエリシナリオを処理する必要があり、他方では、ユーザーはクエリのリアルタイム性能に対してますます厳しい要求を持ち、必要な結果への即座のアクセスを望んでいます。さらに、新たな要件に対応するため、クエリオプティマイザーは迅速な反復と柔軟な適応の機能を備えている必要があります。

この背景に基づき、Dorisは全く新しいクエリオプティマイザーの開発に着手しました。モダンなオプティマイザーアーキテクチャを活用して、このオプティマイザーは現在のDorisシナリオにおけるクエリリクエストをより効率的に処理することを目的とし、同時に優れたスケーラビリティを提供し、将来のより複雑な需要に対する堅実な基盤を築きます。

オプティマイザーの利点

よりスマート

オプティマイザーはRBO(Rule-Based 最適化)とCBO(Cost-Based 最適化)の各最適化ポイントをルールの形で明確に提示します。各ルールに対して、オプティマイザーはクエリプランの形状を記述するパターンセットを提供し、最適化可能なクエリプランの精密なマッチングを可能にします。そのため、オプティマイザーはネストした多層サブクエリなどのより複雑なクエリ文をより良くサポートできます。

同時に、オプティマイザーのCBOは先進的なCascadesフレームワークに基づいており、豊富な統計データ、データ特性情報、および細心に調整されたコストモデルを最大限に活用しています。これにより、オプティマイザーは複数Tableの結合のような複雑なクエリを容易かつ熟練して処理できます。

より安定

オプティマイザーのすべての最適化ルールは論理実行プランツリー上で実行されます。クエリの構文と意味を解析した後、クエリはツリー構造に変換されます。従来のオプティマイザーと比較して、新しいオプティマイザーの内部データ構造はより合理的で統一されています。

サブクエリ処理を例にとると、新しいオプティマイザーは新しいデータ構造に基づいて、従来のオプティマイザーにおける多数のルールによるサブクエリの個別処理を回避し、それにより最適化ルールにおける論理エラーの可能性を減らします。

より柔軟

オプティマイザーのアーキテクチャは合理的かつモダンに設計されており、最適化ルールと処理段階の拡張を非常に便利にします。そのため、進化する新しい要件を満たすために新しい機能を迅速に追加できます。

オプティマイザーの原理

Principles of the Optimizer

オプティマイザーの実行プロセスは以下のステップに分かれています:

  1. 構文解析:オプティマイザーはSQLテキストを抽象構文木(AST)に変換を試みます。SQLテキストが有効であれば次のステップに進み、無効であればエラーを報告して実行を終了します。

  2. 意味解析:オプティマイザーはAST内の要素に対して意味解析を実行します。このステップでは、SQLクエリ内のTable、列、関数などが存在するか、およびそれらの使用法が構文と意味ルールに準拠しているかを確認します。意味が有効であれば実行を継続し、無効であればエラーを報告して実行を終了します。

  3. クエリプランの書き換え(RBO):構文と意味解析の後、オプティマイザーはRule-Based 最適化(RBO)を実行します。このステップでは、一連の事前定義されたルールを通じてクエリプランを書き換え、実行速度を決定論的に最適化します。一般的な最適化技術には、列の剪定、述語のプッシュダウン、パーティション剪定などがあります。

  4. クエリプランの最適化(CBO):最後に、オプティマイザーはCost-Based 最適化(CBO)を実行します。このステップでは、オプティマイザーは検索空間内の同等プランセットを列挙し、それらの実行コストを評価します。異なるプランの実行コストを比較することで、オプティマイザーは最も低いコストのプランを最終実行プランとして選択します。このステップは、クエリが最も効率的な方法で実行されることを保証し、最適なパフォーマンスを提供することを目的としています。

セッション変数

1. プランニングタイムアウト設定 nereids_timeout_second

  • この変数はクエリプランニングに許可される最大時間を設定するために使用されます。プランニング時間がこの設定値を超えた場合、クエリプランニングは終了し、エラーメッセージが返されます。クエリ文をプランニングするプロセス中、システムはSQL内のすべてのTableに対して読み取りロックを取得します。これは主にクラスターの安定性を維持し、プランニング時間が過度に長くなることによる過度なリソース占有とロック競合を防ぐためです。

  • デフォルト値:30s

  • 適用シナリオ:クエリが多数の外部Tableまたは特に複雑なクエリ文を含む場合、この値を適切に増加させて、クエリが正常に進行できるようにすることができます。