Load High Availability
概要
Dorisは、データインポート中の高可用性を確保するための様々なメカニズムを提供します。この記事では、Dorisのデフォルトのインポート動作と、インポート可用性を向上させるための追加オプション、特に最小書き込みレプリカ数機能について詳しく説明します。
Majority Write
デフォルトでは、Dorisはデータの信頼性と一貫性を確保するためにmajority write戦略を採用しています:
- インポートは、正常に書き込まれたレプリカ数が総レプリカ数の半分を超えた場合に成功したとみなされます。
- 例えば、3つのレプリカを持つTableの場合、インポートが成功したとみなされるためには、少なくとも2つのレプリカが正常に書き込まれる必要があります。
動作方式
-
Data Distribution: インポートタスクは、まず関連するすべてのBEノードにデータを配布します。
-
Parallel Writing: 各BEノードは、データ書き込み操作を並列で処理します。
-
Write Confirmation: データ書き込みの完了後、各BEノードはFEに確認を送信します。
-
Majority Judgment: FEは正常に書き込まれたレプリカ数をカウントし、過半数に達した時点でインポートを成功とみなします。
-
Transaction Commit: FEはインポートトランザクションをコミットし、データを外部から見えるようにします。
-
Asynchronous Replication: 正常に書き込まれなかったレプリカについては、システムがバックグラウンドで非同期にデータを複製し、すべてのレプリカ間で最終的な一貫性を確保します。
majority write戦略は、データの信頼性とシステムの可用性の間のDorisのバランスです。特別な要件があるシナリオについては、Dorisは最小書き込みレプリカ数などの他のオプションを提供し、システムの柔軟性をさらに向上させます。
Minimum Write Replica Number
majority write戦略はデータの信頼性を確保しますが、特定のシナリオではシステムの可用性に影響を与える可能性があります。例えば、2つのレプリカの状況では、インポートを完了するために両方のレプリカが正常に書き込まれる必要があり、インポートプロセス中にレプリカが利用できないことは許可されません。
この問題に対処し、インポートの可用性を向上させるため、DorisはMin Load Replica Numオプションを提供しています。
機能説明
最小書き込みレプリカ数により、ユーザーはデータインポート中に正常に書き込まれる必要がある最小レプリカ数を指定できます。正常に書き込まれたレプリカ数がこの値以上になった場合、インポートは成功したとみなされます。
使用ケース
-
一部のノードが利用できない場合でも、データインポートを保証する必要がある場合。
-
データインポート速度に高い要件があり、ユーザーがより高い可用性のために一部の信頼性を犠牲にすることを厭わない場合。
設定方法
1. Single Table 構成
a. Table作成時に設定:
CREATE TABLE example_table
(
id INT,
name STRING
)
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(id) BUCKETS 10
PROPERTIES
(
'replication_num' = '3',
'min_load_replica_num' = '2'
);
b. 既存のTableを変更する:
ALTER TABLE example_table
SET ( 'min_load_replica_num' = '2' );
2. グローバル設定
FE設定項目min_load_replica_numを通じて設定します。
-
有効な値: 0より大きい値
-
デフォルト値: -1(グローバル最小書き込みレプリカ数が有効でないことを示す)
優先順位: Tableプロパティ > グローバル設定 > デフォルト多数決ルール
Tableプロパティが設定されていないか無効で、グローバル設定が有効な場合、Tableの最小書き込みレプリカ数は次のようになります:
min(FE設定のmin_load_replica_num, Tableのレプリカ数/2 + 1)
FE設定項目の表示と変更については、FE設定ドキュメントを参照してください。
その他の高可用性メカニズム
最小書き込みレプリカ数オプションに加えて、DorisはインポートAvailabilityを向上させるために以下のメカニズムも採用しています:
-
インポート再試行: 一時的な障害によって失敗したインポートタスクを自動的に再試行します。
-
Load Balancing: インポートタスクを異なるBEノードに分散し、単一ポイントへの過度な負荷を回避します。
-
トランザクションメカニズム: データの整合性を保証し、障害時に自動的にロールバックします。