並列処理チューニング
概要
Dorisクエリは、MPP(Massively Parallel Processing)フレームワークで実行され、各クエリは複数のBE(Backend Executors)間で並列実行されます。同時に、単一のBE内では、クエリ実行効率を向上させるためにマルチスレッド並列アプローチが採用されています。現在、クエリ、DML(Data Manipulation Language)、DDL(Data Definition Language)を含むすべてのタイプのステートメントが並列実行をサポートしています。
単一のBE内での並列性の制御パラメータはparallel_pipeline_task_numであり、これは実行中に単一のFragmentが使用するワーキングタスクの数を指します。実際の本番環境シナリオでは、不適切な並列性設定によりパフォーマンスの問題が発生する場合があります。以下の例では、並列性を最適化するケースを示しています。
並列性チューニングの原則
parallel_pipeline_task_numを設定する目的は、マルチコアリソースを最大限に活用し、クエリレイテンシを削減することです。しかし、マルチコア並列実行を可能にするために、通常いくつかのデータshuffle演算子と複数スレッド間の同期ロジックが導入され、これが不要なリソースの浪費につながる場合もあります。
Dorisのデフォルト値は0で、これはBEのCPUコア数の半分です。この値は単一クエリと並行操作の両方のリソース使用率を考慮しており、通常はユーザーによる調整の介入は必要ありません。パフォーマンスボトルネックがある場合は、以下の例を参照して必要な調整を行ってください。Dorisは適応戦略を継続的に改善しており、通常は特定のシナリオやSQLレベルで必要な調整を行うことが推奨されます。
BEが16個のCPUコアを持っていると仮定します:
-
単一Tableでの単純な操作(単一Tableポイントクエリ、少量のデータを取得する
WHERE句スキャン、少量のデータのLIMIT、またはマテリアライズドビューのヒットなど)の場合、並列性を1に設定できます。説明:単一Tableでの単純な操作は1つのFragmentのみを含みます。このようなクエリのボトルネックは通常、データスキャンと処理にあります。データスキャンスレッドとクエリ実行スレッドは分離されており、データスキャンスレッドは適応的に並列スキャンを実行します。ここでのボトルネックはクエリスレッドではないため、並列性は直接1に設定できます。
-
2Table
JOINまたは集計クエリを含むクエリについて、データ量が大きく、CPU集約的なクエリであることが確認されている場合、並列性を16に設定できます。説明:2Table
JOINまたは集計クエリは、データ計算集約的なクエリです。CPUが完全に活用されていない場合は、デフォルト値を基準に並列性を増加させて、Pipeline実行エンジンの並列機能を活用し、CPUリソースを計算に最大限活用することを検討してください。各PipelineTaskが割り当てられたCPUリソースを最大限に活用できることは保証されません。したがって、並列性を適切に調整し、たとえば16に設定することで、CPUをより効果的に活用できます。ただし、並列性を無制限に増加させるべきではありません。48に設定しても実質的な利益は得られず、代わりにスレッドスケジューリングオーバーヘッドとフレームワークスケジューリングオーバーヘッドが増加します。 -
ストレステストシナリオでは、ストレステストの複数クエリがCPUを完全に活用できる場合、並列性を1に設定できます。
説明:ストレステストシナリオでは、十分なクエリタスクがあります。過度な並列性もスレッドスケジューリングオーバーヘッドとフレームワークスケジューリングオーバーヘッドをもたらします。この場合、1に設定する方がより合理的です。
-
複雑なクエリについては、Profileとマシン負荷に基づいて並列性を柔軟に調整する必要があります。ここでは、デフォルト値を使用することが推奨されます。適切でない場合は、4-2-1の段階的調整を試し、クエリパフォーマンスとマシン負荷を観察する必要があります。
並列性チューニング方法
Dorisでは、ユーザーがクエリの並列性を手動で指定して、クエリ実行中の並列実行効率を調整できます。
SQLレベル調整
SQL HINTを使用して単一のSQLステートメントの並列性を指定します。これにより、異なるSQLステートメントの並列性を柔軟に制御して、最適な実行結果を実現できます。
select /*+SET_VAR("parallel_pipeline_task_num=8")*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
select /*+SET_VAR("parallel_pipeline_task_num=8,runtime_filter_mode=global")*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
Session Level Adjustment
セッション変数を通じてセッションレベルでの並列度を調整します。セッション内のすべてのクエリステートメントは、指定された並列度で実行されます。単一行のSQLクエリでもこの並列度が使用されるため、パフォーマンスが低下する可能性があることに注意してください。
set parallel_pipeline_task_num = 8;
Global Adjustment
グローバル調整が必要な場合、通常はCPU使用率の調整を含みますが、並列処理はグローバルに設定できます。
set global parallel_pipeline_task_num = 8;
Tabletsと並列性
バージョン2.1以降、Dorisは並列性をtabletの数から切り離すことをサポートしています。
以前のバージョンでは、並列性はクエリに関与するtabletの数を超えることができませんでした。例えば、クエリが5つのtabletに関与する場合、最大スキャン同時実行数は5のみでした。これにより、一部の大きなtabletが同時に読み取られることが妨げられる可能性がありました。
新しいバージョンでは、Dorisはshard内での同時読み取りをサポートしています。この機能は自動的に有効になり、ユーザー設定は不要です。
この機能は、DuplicateおよびUnique Key Merge-On-WriteTableモデルのみをサポートしていることにご注意ください。AggregateおよびUnique Key Merge-On-Readモデルには適用されません。これらの2つのモデルでは、クエリの並列性は依然としてtabletの数によって制約されます。
ベストプラクティス
ケース1:高い同時実行圧迫シナリオにおいて高い並列性が高いCPU使用率を引き起こす場合
オンラインで高いCPU使用率が観察され、一部の低レイテンシクエリのパフォーマンスに影響を与える場合、クエリ並列性を調整してCPU使用率を削減することを検討してください。Dorisの設計哲学は、より多くのリソースを使用してクエリ結果を可能な限り迅速に取得することを優先することですが、オンラインリソースが限られた一部のシナリオでは、これがパフォーマンスの低下を引き起こす可能性があります。したがって、並列性を適切に調整することで、限られたリソース下でのクエリの全体的な安定性と効率性を向上させることができます。
並列性をデフォルト値の0(CPUコア数の半分)から4に設定します:
set global parallel_pipeline_task_num = 4;
グローバル設定後、現在の接続と新しい接続に対して有効になります。既存の他の接続には影響しません。即座にグローバルな効果が必要な場合は、FE (Frontend) を再起動できます。調整後、CPU使用率は以前のピーク値の60%に削減され、一部の低レイテンシクエリへの影響を軽減します。
Case 2: 並列性を向上させてクエリ高速化のためのCPUをさらに活用する
Dorisの現在のデフォルト並列性はCPUコア数の半分であり、一部の計算集約的なシナリオではクエリ高速化のためにCPUを十分に活用できません。
select sum(if(t2.value is null, 0, 1)) exist_value, sum(if(t2.value is null, 1, 0)) no_exist_value
from t1 left join t2 on t1.key = t2.key;
左のTableに20億行、右のTableに500万行がある場合、上記のSQLの実行には28秒かかります。Profileを確認してください:
HASH_JOIN_OPERATOR (id=3, nereids_id=448):
- PlanInfo
- join op: LEFT OUTER JOIN(BROADCAST)[]
- equal join conjunct: (value = value)
- cardinality=2,462,330,332
- vec output tuple id: 5
- output tuple id: 5
- vIntermediate tuple ids: 4
- hash output slot ids: 16
- projections: value
- project output tuple id: 5
- BlocksProduced: sum 360.099K (360099), avg 45.012K (45012), max 45.014K (45014), min 45.011K (45011)
- CloseTime: avg 8.44us, max 13.327us, min 5.574us
- ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms
- InitTime: avg 7.122us, max 13.395us, min 4.541us
- MemoryUsage: sum, avg, max, min
- PeakMemoryUsage: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
- ProbeKeyArena: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
- OpenTime: avg 2.967us, max 4.120us, min 1.562us
- ProbeRows: sum 1.4662330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
- ProjectionTime: avg 165.392ms, max 169.762ms, min 161.727ms
- RowsProduced: sum 1.462330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
ここでの主要な時間消費部分:ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms はすべてJoin operatorで発生しており、処理されたデータの総量:ProbeRows: sum 1.4662330332B は14億件で、これは典型的なCPU集約的な計算シナリオです。マシンの監視を確認すると、CPUリソースが完全に活用されておらず、CPU使用率が60%であることがわかります。この時点で、並列性を増やしてアイドル状態のCPUリソースをさらに活用し、処理を高速化することを検討します。
並列性を以下のように設定します:
set parallel_pipeline_task_num = 16;
クエリ実行時間は28秒から19秒に短縮され、CPU使用率は60%から90%に向上しました。
概要
通常、ユーザーはクエリの並列度を調整する必要はありません。調整が必要な場合は、以下の点に注意してください:
- CPU使用率から始めることを推奨します。PROFILEツールの出力を通じてCPUボトルネックかどうかを観察し、並列度に対して合理的な修正を試してください。
- 単一のSQLを調整することは比較的安全です。過度に積極的なグローバル修正は行わないようにしてください。