Elastic Compute Node
Elasticコンピュートノードは、BEノードの特別なタイプとして、データストレージ機能を持たず、データ演算のみを担当します。したがって、コンピュートノードはステートレスなBEノードとして扱うことができ、簡単に追加および削除が可能です。
lakehouseデータ分析シナリオでは、elasticコンピュートノードを使用してHive、Iceberg、Hudi、Paimon、JDBCなどの外部データソースをクエリできます。Dorisは外部データソースデータのストレージを処理しないため、elasticコンピュートノードを使用して外部データソースの計算能力を簡単に拡張できます。さらに、コンピュートノードにキャッシュディレクトリを構成して外部データソースのホットデータをキャッシュし、データ読み取りをさらに高速化することも可能です。
Elasticコンピュートノードは、Dorisのストレージとコンピュートが統合されたモードでのelasticリソース制御に適しています。Doris 3.0のストレージ・コンピュート分離アーキテクチャでは、BEノードはステートレスであるため、別途elasticコンピュートノードは不要になります。
Compute Nodesの使用方法
BEノードタイプ
ストレージとコンピュートが統合されたモードでは、BEノードは2つのタイプに分類されます:
-
Mix
混合ノード。これはBEノードのデフォルトタイプです。これらのノードは計算とDoris内部Tableデータのストレージの両方に参加します。
-
Computation
Elasticコンピュートノード。データストレージは処理せず、データ計算のみを行います。
Compute Nodesの追加
BEのbe.conf設定ファイルに以下の設定を追加します:
be_node_role=computation
その後、BEノードを起動すると、Computationタイプとして動作します。
次に、Dorisに接続して以下を実行します:
ALTER SYSTEM ADD BACKEND
このBEノードを追加します。追加が成功すると、SHOW BACKENDSのNodeRole列でノードタイプがcomputationとして表示されます。
Compute Nodesの使用
FE設定ファイルfe.confで以下のパラメータを設定して、コンピュートノードを有効にし、その動作を制御する必要があります:
| パラメータ名 | 説明 |
|---|---|
prefer_compute_node_for_external_table | デフォルトはfalseです。trueに設定すると、外部Tableのクエリが優先的にコンピュートノードに割り当てられます。falseの場合、外部Tableのクエリは任意のBEノードに割り当てられます。クラスタにコンピュートノードがない場合、このパラメータは効果がありません。 |
min_backend_num_for_external_table | prefer_compute_node_for_external_tableがtrueの場合にのみ有効です。クラスタ内のコンピュートノード数がこの値未満の場合、外部Tableのクエリは一部の混合ノードの取得を試行して割り当て、合計ノード数がこの値に達するようにします。クラスタ内のコンピュートノード数がこの値より多い場合、外部Tableのクエリはコンピュートノードのみに割り当てられます。バージョン2.0(含む)以前では、このパラメータのデフォルト値は3でした。バージョン2.1以降、デフォルト値は-1で、現在のコンピュートノード数のみを使用することを意味します。 |
min_backend_num_for_external_tableの詳細説明:
クラスタに3つのコンピュートノードと5つの混合ノードがあると仮定します。
min_backend_num_for_external_tableを3以下に設定した場合、外部Tableクエリは3つのコンピュートノードのみを使用します。3より大きく、例えば6に設定した場合、外部Tableクエリは3つのコンピュートノードプラス追加の3つの混合ノードを計算に使用します。
要約すると、このパラメータは主に外部Table計算に参加できるBEノードの最小数に使用され、優先的にコンピュートノードを選択します。このパラメータを増加させると、より多くのBEノード(コンピュートノードに限定されない)が外部Tableクエリ処理に参加できるようになります。このパラメータを減少させると、外部Tableクエリ処理に参加するBEノード数を制限できます。
注意:
バージョン2.1以降、
min_backend_num_for_external_tableは-1に設定できます。以前のバージョンでは、このパラメータは正の数である必要があります。このパラメータはprefer_compute_node_for_external_table = trueの場合にのみ有効です。
min_backend_num_for_external_tableの値がBEノードの総数より大きい場合、最大ですべてのBEが選択されます。上記のパラメータは、FEノードを再起動することなく
ADMIN SET FRONTEND CONFIGコマンドを使用して動的に変更できます。すべてのFEノードに設定する必要があります。または、fe.confに設定を追加してFEノードを再起動してください。
ベストプラクティス
フェデレーテッドクエリのリソース分離とElastic Scaling
フェデレーテッドクエリシナリオでは、ユーザーは外部Tableデータのクエリ専用のコンピュートノードセットを展開できます。これにより、外部Tableクエリロード(Hiveでの大規模分析など)を内部Tableクエリロード(低遅延の高速データ分析など)から分離できます。
同時に、ステートレスなBEノードとして、コンピュートノードは簡単にスケールアップおよびスケールダウンができます。例えば、k8sを使用してelasticコンピュートノードクラスタセットを展開し、ビジネスピーク時にデータレイク分析により多くのコンピュートノードを利用し、オフピーク時に迅速にスケールダウンしてコストを削減できます。
よくある問題
- 混合ノードとコンピュートノードは相互変換できますか?
コンピュートノードは混合ノードに変換できます。ただし、混合ノードはコンピュートノードに変換できません。
- コンピュートノードはデータストレージディレクトリの設定が必要ですか?
はい。コンピュートノードのデータストレージディレクトリは、ユーザーデータは格納せず、cluster_idなどのBEノード自体の情報ファイルや、動作中の一部の一時ファイルのみを格納します。
コンピュートノードのストレージディレクトリは、少量のディスク容量(MBレベル)のみを必要とし、ユーザーデータに影響を与えることなく、ノードと一緒にいつでも破棄できます。
- コンピュートノードと混合ノードはファイルキャッシュディレクトリを設定できますか?
File cacheは、最近アクセスしたリモートストレージシステム(HDFSまたはオブジェクトストレージ)からのデータファイルをキャッシュすることで、同じデータの後続クエリを高速化します。
コンピュートノードと混合ノードの両方がファイルキャッシュディレクトリを設定できます。ファイルキャッシュディレクトリは事前に作成する必要があります。
- コンピュートノードはDECOMMISION操作による廃止が必要ですか?
いいえ。コンピュートノードはDROP BACKEND操作を使用して直接削除できます。