並列処理のチューニング
概要
DorisのクエリはMPP(Massively Parallel Processing)フレームワークで実行され、各クエリは複数のBE(Backend Executors)間で並列実行されます。同時に、単一のBE内では、クエリ実行効率を向上させるためにマルチスレッド並列アプローチが採用されています。現在、クエリ、DML(Data Manipulation Language)、DDL(Data Definition Language)を含むすべてのタイプのステートメントが並列実行をサポートしています。
単一のBE内での並列性の制御パラメータはparallel_pipeline_task_numで、これは実行中に単一のFragmentが使用するワーキングタスクの数を指します。実際の本番環境では、不適切な並列性設定によりパフォーマンスの問題が発生する可能性があります。以下の例は、並列性を最適化するケースを説明しています。
並列性チューニングの原則
parallel_pipeline_task_numを設定する目的は、マルチコアリソースを十分に活用し、クエリのレイテンシを削減することです。しかし、マルチコア並列実行を可能にするために、通常はいくつかのデータshuffle演算子と複数スレッド間の同期ロジックが導入され、これにより不要なリソース浪費につながる可能性もあります。
Dorisのデフォルト値は0で、これはBEのCPUコア数の半分です。この値は、単一クエリと並行操作の両方のリソース利用率を考慮しており、通常はユーザーの介入による調整は不要です。パフォーマンスボトルネックがある場合は、以下の例を参考に必要な調整を行ってください。Dorisは適応戦略を継続的に改善しており、通常は特定のシナリオやSQLレベルで必要な調整を行うことが推奨されます。
BEが16個のCPUコアを持つと仮定します:
-
単一Tableでの単純な操作(単一Tableのポイントクエリ、少量のデータを取得する
WHERE句スキャン、少量のデータのLIMIT、またはマテリアライズドビューのヒットなど)では、並列性を1に設定できます。説明:単一Tableでの単純な操作では、1つのFragmentのみが関与します。このようなクエリのボトルネックは通常、データスキャンと処理にあります。データスキャンスレッドとクエリ実行スレッドは分離されており、データスキャンスレッドは適応的に並列スキャンを実行します。ここでは、ボトルネックはクエリスレッドではないため、並列性を直接1に設定できます。
-
2Tableの
JOINや集約クエリを含むクエリで、データ量が大きく、CPU集約型クエリであることが確認されている場合、並列性を16に設定できます。説明:2Tableの
JOINや集約クエリは、データ計算集約型クエリです。CPUが十分に活用されていない場合、デフォルト値をベースに並列性を増加させて、Pipeline実行エンジンの並列機能を活用し、CPUリソースを計算に十分活用することを検討してください。各PipelineTaskが割り当てられたCPUリソースを最大限に活用できることは保証されません。そのため、並列性を適切に調整し、例えば16に設定することで、CPUをより良く活用できます。ただし、並列性を無制限に増加させるべきではありません。48に設定しても実質的なメリットはなく、代わりにスレッドスケジューリングオーバーヘッドとフレームワークスケジューリングオーバーヘッドが増加します。 -
ストレステストシナリオにおいて、ストレステスト内の複数のクエリがCPUを十分に活用できる場合、並列性を1に設定できます。
説明:ストレステストシナリオでは、十分なクエリタスクがあります。過度な並列性もスレッドスケジューリングオーバーヘッドとフレームワークスケジューリングオーバーヘッドをもたらします。この場合、1に設定することがより合理的です。
-
複雑なクエリでは、Profileとマシンの負荷に基づいて並列性を柔軟に調整する必要があります。ここでは、デフォルト値の使用が推奨されます。適さない場合は、4-2-1の段階的調整を試し、クエリパフォーマンスとマシンの負荷を観察してください。
並列性チューニングの方法
Dorisでは、ユーザーがクエリの並列性を手動で指定して、クエリ実行中の並列実行効率を調整できます。
SQLレベル調整
SQL HINTを使用して単一のSQLステートメントの並列性を指定します。これにより、異なるSQLステートメントの並列性を柔軟に制御し、最適な実行結果を実現できます。
select /*+SET_VAR("parallel_pipeline_task_num=8")*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
select /*+SET_VAR("parallel_pipeline_task_num=8,runtime_filter_mode=global")*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
Session Level Adjustment
セッション変数を通じてセッションレベルで並列度を調整します。セッション内のすべてのクエリステートメントは、指定された並列度で実行されます。単一行のSQLクエリでもこの並列度が使用されるため、パフォーマンスの低下を招く可能性があることにご注意ください。
set parallel_pipeline_task_num = 8;
Global Adjustment
グローバル調整が必要な場合、通常CPU使用率調整を伴うため、並列性をグローバルに設定できます。
set global parallel_pipeline_task_num = 8;
Tabletと並列処理
バージョン2.1以降、Dorisはtablet数からの並列処理の分離をサポートしています。
以前のバージョンでは、並列処理はクエリに関わるtablet数を超えることができませんでした。例えば、クエリが5つのtabletに関わる場合、最大スキャン並行数は5のみでした。これにより、一部の大きなtabletが並行して読み取られることができない場合がありました。
新しいバージョンでは、Dorisはshard内での並行読み取りをサポートします。この機能は自動的に有効化され、ユーザー設定は不要です。
この機能はDuplicateおよびUnique Key Merge-On-WriteTableモデルのみをサポートすることに注意してください。AggregateおよびUnique Key Merge-On-Readモデルには適用されません。これら2つのモデルでは、クエリ並列処理は依然としてtablet数によって制約されます。
Best Practice
ケース1: 高並行負荷シナリオにおいて高並列処理が高CPU使用率を引き起こす場合
オンラインで高いCPU使用率が観測され、一部の低レイテンシクエリのパフォーマンスに影響を与えている場合、CPU使用率を削減するためにクエリ並列処理の調整を検討してください。Dorisの設計思想は、可能な限り迅速にクエリ結果を取得するためにより多くのリソースを使用することを優先するため、オンラインリソースが逼迫している一部のシナリオでは、これがパフォーマンスの低下につながる可能性があります。したがって、並列処理の適切な調整により、限られたリソース下でのクエリの全体的な安定性と効率を向上させることができます。
並列処理をデフォルト値の0(CPUコア数の半分)から4に設定します:
set global parallel_pipeline_task_num = 4;
グローバル設定後、現在の接続と新しい接続に対して有効になります。既存の他の接続は影響を受けません。即座にグローバルに効果を適用する必要がある場合は、FE (Frontend) を再起動できます。調整後、CPU使用率は以前のピーク値の60%に削減され、一部の低レイテンシクエリへの影響が軽減されます。
Case 2: 並列処理を増加させてクエリ高速化のためにCPUをさらに活用する
Dorisの現在のデフォルト並列処理数はCPUコア数の半分であり、一部の計算集約的なシナリオではクエリ高速化のためにCPUを完全に活用することができません。
select sum(if(t2.value is null, 0, 1)) exist_value, sum(if(t2.value is null, 1, 0)) no_exist_value
from t1 left join t2 on t1.key = t2.key;
左Tableに20億行、右Tableに500万行があるシナリオでは、上記のSQLの実行に28秒かかります。Profileを確認してください:
HASH_JOIN_OPERATOR (id=3, nereids_id=448):
- PlanInfo
- join op: LEFT OUTER JOIN(BROADCAST)[]
- equal join conjunct: (value = value)
- cardinality=2,462,330,332
- vec output tuple id: 5
- output tuple id: 5
- vIntermediate tuple ids: 4
- hash output slot ids: 16
- projections: value
- project output tuple id: 5
- BlocksProduced: sum 360.099K (360099), avg 45.012K (45012), max 45.014K (45014), min 45.011K (45011)
- CloseTime: avg 8.44us, max 13.327us, min 5.574us
- ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms
- InitTime: avg 7.122us, max 13.395us, min 4.541us
- MemoryUsage: sum, avg, max, min
- PeakMemoryUsage: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
- ProbeKeyArena: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
- OpenTime: avg 2.967us, max 4.120us, min 1.562us
- ProbeRows: sum 1.4662330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
- ProjectionTime: avg 165.392ms, max 169.762ms, min 161.727ms
- RowsProduced: sum 1.462330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
ここで最も時間を要する部分:ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms は全てJoin operatorで発生しており、処理されたデータの総量:ProbeRows: sum 1.4662330332B は14億件で、これは典型的なCPU集約的な計算シナリオです。マシンの監視を確認すると、CPUリソースが十分に活用されておらず、CPU使用率は60%であることがわかります。この時点で、並列度を増加させてアイドル状態のCPUリソースをさらに活用し、処理を高速化することを検討します。
並列度を以下のように設定します:
set parallel_pipeline_task_num = 16;
クエリ実行時間は28秒から19秒に短縮され、CPU使用率は60%から90%に向上しました。
概要
通常、ユーザーはクエリ並列度を調整する必要はありません。調整が必要な場合は、以下の点に注意してください:
- CPU使用率から開始することを推奨します。PROFILEツールの出力を通じてCPUボトルネックかどうかを観察し、並列度に対して合理的な修正を行うよう試してください。
- 単一のSQLを調整することは比較的安全です。過度に積極的なグローバル修正は行わないようにしてください。