Tableタイプ概要
DorisでTableを作成する際は、データの保存と管理方法を決定するTableタイプを指定する必要があります。Dorisでは、「Key Model」という概念を使用してキーの保存と管理のセマンティクスを定義しており、これはTableタイプと密接に関連しています。Dorisは3つのキーモデル(またはTableタイプ)をサポートしています:Duplicate Key、Unique Key、およびAggregate Keyです。各キーモデルは、データの重複除去、集約、更新処理に対して異なるメカニズムを提供し、異なるビジネスシナリオに適しています。適切なキーモデル(Tableタイプ)の選択は、ビジネス要件を満たしながら効率的で柔軟なデータ処理を確保するために不可欠です。
Tableタイプの分類
Dorisは3つのタイプのTableタイプをサポートしています:
-
Duplicate Key Model:指定されたKeyカラムの重複を許可し、Dorisのストレージ層は書き込まれたすべてのデータを保持します。このモデルは、すべての元のデータレコードを保存する必要がある状況に適しています。
-
Unique Key Model:各行が一意のKey値を持つことを保証し、指定されたKeyカラムに対して重複行がないことを保証します。Dorisストレージ層は各キーに対して最新に書き込まれたデータのみを保持し、このモデルはデータ更新を含むシナリオに適しています。
-
Aggregate Key Model:Keyカラムに基づいてデータを集約することを可能にします。Dorisストレージ層は集約されたデータを保持し、ストレージ容量を削減してクエリパフォーマンスを向上させます。このモデルは通常、サマリーや集約情報(合計や平均など)が必要な状況で使用されます。
Tableを作成した後、Tableタイプのプロパティは確定され、変更することはできません。ビジネスに適切なモデルを選択することが重要です:
-
Duplicate Key Modelは任意の次元でのアドホッククエリに適しています。事前集約の利点を活用できませんが、集約モデルによる制約を受けず、カラムナストレージモデルの利点を活用できます(すべてのキーカラムを読み込む必要なく、関連するカラムのみを読み込む)。
-
Unique Key Modelは一意キー制約が必要なシナリオ向けに設計されており、キーの一意性を保証します。ただし、ROLLUPなどの事前集約によるクエリの利点を活用することはできません。
-
Aggregate Key Modelは事前集約により集約クエリに必要なデータと計算を大幅に削減でき、固定スキーマのレポートクエリに理想的です。ただし、このモデルは
count(*)クエリに適していません。また、Valueカラムの集約方法が固定されているため、他のタイプの集約クエリを実行する際には、セマンティクスの正確性を考慮する必要があります。 -
部分カラム更新については、関連する使用方法のアドバイスとしてUnique Key Modelでの部分カラム更新とAggregate Modelでの部分カラム更新のドキュメントを参照してください。
Sort Key
Dorisでは、データはカラムナ形式で保存され、TableはKeyカラムとValueカラムに分割できます。Keyカラムはグループ化とソートに使用され、Valueカラムは集約に使用されます。Keyカラムは1つ以上のフィールドで構成でき、Table作成時にデータはAggregate Key、Unique Key、Duplicate Keyモデルのカラムに従ってソートされて保存されます。
異なるTableタイプでは、Table作成時にKeyカラムの指定が必要であり、それぞれ異なる意味を持ちます:Duplicate Key Modelでは、Keyカラムはソートを表し、一意性制約はありません。Aggregate KeyとUnique Keyモデルでは、Keyカラムに基づいて集約が実行され、ソート機能だけでなく一意性制約も適用されます。
Sort Keyの適切な使用により、以下の利点が得られます:
-
クエリパフォーマンスの向上:ソートキーはスキャンが必要なデータ量の削減に役立ちます。範囲クエリやフィルタリングクエリの場合、ソートキーはデータを直接特定できます。ソートが必要なクエリでも、ソートキーはソート処理を高速化できます。
-
データ圧縮の最適化:ソートキーに基づいて順序付けしてデータを保存することで圧縮効率が向上します。類似のデータがグループ化されるため、圧縮率が大幅に向上し、ストレージ容量が削減されます。
-
重複除去コストの削減:Unique Key Modelを使用する際、ソートキーによりDorisはより効率的に重複除去を実行でき、データの一意性を保証します。
ソートキーを選択する際は、以下の推奨事項に従うことができます:
-
KeyカラムはすべてのValueカラムより前に配置する必要があります。
-
整数型を優先的に選択してください。整数型は文字列よりも計算と検索において大幅に効率的だからです。
-
異なる長さの整数型を選択する際は、十分な長さを選ぶという原則に従ってください。
-
VARCHARとSTRING型の長さについては、十分な長さを選ぶという原則に従ってください...
table type比較
| Duplicate Key Model | Unique Key Model | Aggregate Key Model | |
|---|---|---|---|
| Keyカラムの一意性 | 非サポート、Keyカラムの重複可能 | サポート | サポート |
| 同期マテリアライズドビュー | サポート | サポート | サポート |
| 非同期マテリアライズドビュー | サポート | サポート | サポート |
| UPDATE文 | 非サポート | サポート | 非サポート |
| DELETE文 | 部分サポート | サポート | 非サポート |
| インポート時の全行更新 | 非サポート | サポート | 非サポート |
| インポート時の部分カラム更新 | 非サポート | サポート | 部分サポート |