並列度チューニング
概要
Dorisクエリは、各クエリが複数のBE(Backend Executors)間で並列に実行されるMPP(Massively Parallel Processing)フレームワークで実行されます。一方、単一のBE内では、クエリ実行効率を向上させるためにマルチスレッド並列アプローチが採用されています。現在、クエリ、DML(Data Manipulation Language)、DDL(Data Definition Language)を含むすべてのタイプのステートメントが並列実行をサポートしています。
単一のBE内の並列度を制御するパラメータはparallel_pipeline_task_numで、これは実行中に単一のFragmentで使用される作業タスクの数を指します。実際の本番シナリオでは、不適切な並列度設定によりパフォーマンスの問題が発生する場合があります。以下の例では、並列度を最適化するケースを示しています。
並列度チューニングの原則
parallel_pipeline_task_numを設定する目的は、マルチコアリソースを完全に活用し、クエリのレイテンシを削減することです。ただし、マルチコア並列実行を可能にするために、通常はいくつかのデータshuffleオペレータと複数スレッド間の同期ロジックが導入され、これが不要なリソースの浪費につながる可能性もあります。
Dorisのデフォルト値は0で、これはBEのCPUコア数の半分です。この値は、単一クエリと同時実行操作の両方のリソース使用率を考慮しており、通常はユーザーが調整のために介入する必要はありません。パフォーマンスボトルネックがある場合は、以下の例を参考にして必要な調整を行ってください。Dorisは適応戦略を継続的に改善しており、通常は特定のシナリオまたはSQLレベルで必要な調整を行うことを推奨します。
BEが16個のCPUコアを持つと仮定します:
-
単一Tableでの簡単な操作(単一Tableのポイントクエリ、少量のデータを取得する
WHERE句スキャン、少量のデータのLIMIT、またはマテリアライズドビューへのヒットなど)の場合、並列度は1に設定できます。説明:単一Tableでの簡単な操作には1つのFragmentのみが関与します。このようなクエリのボトルネックは通常、データのスキャンと処理にあります。データスキャンスレッドとクエリ実行スレッドは分離されており、データスキャンスレッドは適応的に並列スキャンを実行します。ここでは、ボトルネックはクエリスレッドではないため、並列度を直接1に設定できます。
-
2つのTableの
JOINまたは集計クエリが関与するクエリの場合、データ量が大きく、CPU集約型のクエリであることが確認されている場合、並列度は16に設定できます。説明:2つのTableの
JOINまたは集計クエリは、データ計算集約型のクエリです。CPUが完全に活用されていない場合は、デフォルト値をベースに並列度を増やして、Pipeline実行エンジンの並列機能を活用し、計算でCPUリソースを完全に活用することを検討してください。各PipelineTaskが割り当てられたCPUリソースを最大限に活用できることは保証できません。そのため、並列度を適切に調整し、例えば16に設定して、CPUをより有効に活用することができます。ただし、並列度を無限に増やすべきではありません。48に設定しても実質的な利益をもたらさず、代わりにスレッドスケジューリングのオーバーヘッドとフレームワークスケジューリングのオーバーヘッドを増加させます。 -
ストレステストシナリオで、ストレステストの複数のクエリがCPUを完全に活用できる場合、並列度は1に設定できます。
説明:ストレステストシナリオでは、十分なクエリタスクがあります。過度の並列化もスレッドスケジューリングのオーバーヘッドとフレームワークスケジューリングのオーバーヘッドをもたらします。この場合、1に設定する方がより合理的です。
-
複雑なクエリの場合、Profileとマシンの負荷に基づいて並列度を柔軟に調整する必要があります。ここでは、デフォルト値を使用することを推奨します。適さない場合は、4-2-1の段階的調整を試し、クエリパフォーマンスとマシンの負荷を観察してください。
並列度チューニングの方法
Dorisでは、ユーザーがクエリの並列度を手動で指定して、クエリ実行中の並列実行効率を調整することができます。
SQLレベルの調整
SQL HINTを使用して、単一のSQLステートメントの並列度を指定します。これにより、異なるSQLステートメントの並列度を柔軟に制御して、最適な実行結果を達成できます。
select /*+SET_VAR(parallel_pipeline_task_num=8)*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
select /*+SET_VAR(parallel_pipeline_task_num=8,runtime_filter_mode=global)*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
Session Level Adjustment
セッション変数を通じてセッションレベルで並列度を調整します。セッション内のすべてのクエリ文は、指定された並列度で実行されます。単一行のSQLクエリでもこの並列度が使用されるため、パフォーマンスの低下につながる可能性があることにご注意ください。
set parallel_pipeline_task_num = 8;
Global Adjustment
グローバル調整が必要な場合、通常はCPU使用率調整を含むため、並列処理をグローバルに設定することができます。
set global parallel_pipeline_task_num = 8;
Tabletと並列性
バージョン2.1以降、Dorisは並列性をtablet数から分離することをサポートしています。
以前のバージョンでは、並列性はクエリに関与するtablet数を超えることができませんでした。例えば、クエリが5つのtabletに関与する場合、最大スキャン並行性は5のみでした。これにより、一部の大きなtabletが並行して読み取られることが阻害される可能性がありました。
新しいバージョンでは、Dorisはshard内での並行読み取りをサポートしています。この機能は自動的に有効になり、ユーザー設定は不要です。
この機能はDuplicateおよびUnique Key Merge-On-WriteTableモデルのみをサポートしていることに注意してください。AggregateおよびUnique Key Merge-On-Readモデルには適用されません。これら2つのモデルでは、クエリの並列性は依然としてtablet数によって制約されます。
Best Practice
ケース1:高並行圧迫シナリオにおける高並列性による高CPU使用率
オンラインで高いCPU使用率が観察され、一部の低レイテンシクエリのパフォーマンスに影響を与える場合、クエリの並列性を調整してCPU使用率を削減することを検討してください。Dorisの設計哲学は、可能な限り迅速にクエリ結果を取得するためにより多くのリソースを使用することを優先するため、オンラインリソースが逼迫している一部のシナリオでは、パフォーマンスが低下する可能性があります。したがって、並列性を適切に調整することで、限られたリソース下でのクエリの全体的な安定性と効率性を向上させることができます。
並列性をデフォルト値の0(CPUコア数の半分)から4に設定します:
set global parallel_pipeline_task_num = 4;
グローバル設定後、現在の接続と新しい接続に対して有効になります。既存の他の接続には影響しません。即座にグローバルな効果が必要な場合は、FE(Frontend)を再起動できます。調整後、CPU使用率は以前のピーク値の60%まで削減され、一部の低レイテンシクエリへの影響が軽減されます。
Case 2: 並列度を増やしてクエリ高速化のためにCPUをさらに活用する
Dorisの現在のデフォルト並列度はCPUコア数の半分であり、一部の計算集約的なシナリオではクエリ高速化のためにCPUを完全に活用できません。
select sum(if(t2.value is null, 0, 1)) exist_value, sum(if(t2.value is null, 1, 0)) no_exist_value
from t1 left join t2 on t1.key = t2.key;
左Tableに20億行、右Tableに500万行があるシナリオでは、上記のSQLの実行に28秒かかります。Profileを確認してください:
HASH_JOIN_OPERATOR (id=3, nereids_id=448):
- PlanInfo
- join op: LEFT OUTER JOIN(BROADCAST)[]
- equal join conjunct: (value = value)
- cardinality=2,462,330,332
- vec output tuple id: 5
- output tuple id: 5
- vIntermediate tuple ids: 4
- hash output slot ids: 16
- projections: value
- project output tuple id: 5
- BlocksProduced: sum 360.099K (360099), avg 45.012K (45012), max 45.014K (45014), min 45.011K (45011)
- CloseTime: avg 8.44us, max 13.327us, min 5.574us
- ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms
- InitTime: avg 7.122us, max 13.395us, min 4.541us
- MemoryUsage: sum, avg, max, min
- PeakMemoryUsage: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
- ProbeKeyArena: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
- OpenTime: avg 2.967us, max 4.120us, min 1.562us
- ProbeRows: sum 1.4662330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
- ProjectionTime: avg 165.392ms, max 169.762ms, min 161.727ms
- RowsProduced: sum 1.462330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
ここで最も時間のかかる部分:ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms はすべてJoin operatorで発生しており、処理されたデータの総量:ProbeRows: sum 1.4662330332B は14億件で、これは典型的なCPU集約的な計算シナリオです。マシンの監視を確認すると、CPUリソースが完全に活用されておらず、CPU使用率が60%であることがわかります。この時点で、並列度を増やしてアイドル状態のCPUリソースをさらに活用し、高速化を図ることを検討します。
並列度を次のように設定します:
set parallel_pipeline_task_num = 16;
クエリ実行時間は28秒から19秒に短縮され、CPU使用率は60%から90%に向上しています。
要約
通常、ユーザーはクエリの並列度を調整する必要はありません。調整が必要な場合は、以下の点に注意してください:
- CPU使用率から始めることを推奨します。PROFILEツールの出力を通じてCPUボトルネックかどうかを観察し、並列度に対して合理的な修正を行うよう試してください。
- 単一のSQLを調整することは比較的安全です。過度に積極的なグローバル修正は行わないようにしてください。