メインコンテンツまでスキップ
バージョン: 2.1

Load High Availability

概要

Dorisは、データインポート時の高可用性を確保するための様々なメカニズムを提供します。この記事では、Dorisのデフォルトのインポート動作と、インポート可用性を向上させるための追加オプション、特に最小書き込みレプリカ数機能について詳しく説明します。

Majority Write

デフォルトでは、Dorisはデータの信頼性と一貫性を確保するためにmajority write戦略を採用しています:

  • 正常に書き込まれたレプリカ数が総レプリカ数の半分を超えた場合、インポートが成功したとみなされます。
  • 例えば、3つのレプリカを持つTableの場合、インポートが成功とみなされるには少なくとも2つのレプリカが正常に書き込まれる必要があります。

動作原理

  1. データ配布: インポートタスクは、まず関連するすべてのBEノードにデータを配布します。

  2. 並列書き込み: 各BEノードは、データ書き込み操作を並列で処理します。

  3. 書き込み確認: データ書き込み完了後、各BEノードはFEに確認を送信します。

  4. Majority判定: FEは正常に書き込まれたレプリカ数をカウントし、過半数に達した時点でインポートが成功したとみなします。

  5. トランザクションコミット: FEはインポートトランザクションをコミットし、データを外部から見えるようにします。

  6. 非同期レプリケーション: 正常に書き込まれなかったレプリカについて、システムはバックグラウンドで非同期的にデータをレプリケートし、すべてのレプリカ間で最終的な一貫性を確保します。

majority write戦略は、データ信頼性とシステム可用性の間のDorisのバランスです。特別な要件があるシナリオでは、Dorisは最小書き込みレプリカ数などの他のオプションを提供し、システムの柔軟性をさらに向上させます。

最小書き込みレプリカ数

majority write戦略はデータ信頼性を確保しますが、特定のシナリオではシステム可用性に影響を与える可能性があります。例えば、2つのレプリカの状況では、インポートを完了するには両方のレプリカが正常に書き込まれる必要があり、インポートプロセス中にレプリカが利用不可になることは許可されません。

この問題に対処し、インポート可用性を向上させるため、DorisはMin Load Replica Numオプションを提供します。

機能説明

最小書き込みレプリカ数により、ユーザーはデータインポート時に正常に書き込まれる必要があるレプリカの最小数を指定できます。正常に書き込まれたレプリカ数がこの値以上になった場合、インポートが成功したとみなされます。

使用ケース

  • 一部のノードが利用不可の場合でも、データインポートを保証する必要がある時。

  • データインポート速度に対する要件が高く、ユーザーがより高い可用性のために一部の信頼性を犠牲にする意思がある時。

設定方法

1. 単一Table設定

a. Table作成時に設定:

CREATE TABLE example_table
(
id INT,
name STRING
)
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(id) BUCKETS 10
PROPERTIES
(
'replication_num' = '3',
'min_load_replica_num' = '2'
);

b. 既存のTableを変更する:

ALTER TABLE example_table
SET ( 'min_load_replica_num' = '2' );

2. グローバル設定

FE設定項目 min_load_replica_num で設定します。

  • 有効値: 0より大きい値

  • デフォルト値: -1 (グローバル最小書き込みレプリカ数が有効でないことを示す)

優先順位: Tableプロパティ > グローバル設定 > デフォルト過半数ルール

Tableプロパティが設定されていない、または無効で、グローバル設定が有効な場合、Tableの最小書き込みレプリカ数は: min(FE設定のmin_load_replica_num, Tableのレプリカ数/2 + 1)

FE設定項目の確認と変更については、FE設定ドキュメントを参照してください。

その他の高可用性メカニズム

最小書き込みレプリカ数オプションに加えて、Dorisはインポート可用性を向上させるために以下のメカニズムも採用しています:

  1. インポート再試行: 一時的な障害により失敗したインポートタスクを自動的に再試行します。

  2. 負荷分散: インポートタスクを異なるBEノードに分散し、単一ポイントへの過度な負荷を回避します。

  3. トランザクションメカニズム: データ一貫性を保証し、障害発生時は自動的にロールバックします。