使用上の注意事項
カラムタイプの推奨事項
Table作成時のカラムタイプの推奨事項:
- KeyカラムはすべてのValueカラムより前に配置する必要があります。
- 可能な限り、整数型を選択してください。これは、整数型の計算および検索効率が文字列よりもはるかに高いためです。
- 異なる長さの整数型を選択する際は、十分性の原則に従ってください。
- VARCHARとSTRING型の長さについても、十分性の原則に従ってください。
Aggregate Modelの制限事項
このセクションでは、Aggregate Modelの制限事項について説明します。
Aggregate Modelは集約されたデータのみを提示します。つまり、まだ集約されていないデータ(たとえば、2つの異なるインポートバッチ)の表示一貫性を確保する必要があります。以下では、例を用いてさらに詳しく説明します。
次のTableスキーマがあるとします:
| ColumnName | タイプ | AggregationType | Comment |
|---|---|---|---|
| user_id | LARGEINT | User ID | |
| date | DATE | Date when the data are imported | |
| cost | BIGINT | SUM | Total user consumption |
次のように、ストレージエンジンに2つのデータバッチがインポートされたと仮定します:
batch 1
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 50 |
| 10002 | 2017-11-21 | 39 |
batch 2
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 1 |
| 10001 | 2017-11-21 | 5 |
| 10003 | 2017-11-22 | 22 |
ご覧のとおり、これら2つのインポートバッチでのUser 10001のデータはまだ集約されていません。しかし、ユーザーが次のように集約されたデータのみをクエリできるようにするため:
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 51 |
| 10001 | 2017-11-21 | 5 |
| 10002 | 2017-11-21 | 39 |
| 10003 | 2017-11-22 | 22 |
データの表示一貫性を確保するために、クエリエンジンに集約演算子を追加しました。
さらに、集約カラム(Value)において、集約タイプと一致しない集約クラスのクエリを実行する際は、セマンティクスに注意してください。たとえば、上記の例で次のクエリを実行した場合:
SELECT MIN(cost) FROM table;
結果は1ではなく5になります。
一方、この一貫性保証により、一部のクエリでは効率が大幅に低下する可能性があります。
基本的なcount (*)クエリを例に挙げます:
SELECT COUNT(*) FROM table;
他のデータベースでは、このようなクエリは迅速に結果を返します。実際の実装では、モデルがインポート時に行数をカウントして統計を保存することで、またはクエリ時に特定の1つのデータカラムのみをスキャンしてcount値を取得することで、非常に少ないオーバーヘッドでクエリ結果を得ることができるためです。しかし、DorisのAggregation Modelでは、このようなクエリのオーバーヘッドは大きくなります。
前述の例について:
batch 1
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 50 |
| 10002 | 2017-11-21 | 39 |
batch 2
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 1 |
| 10001 | 2017-11-21 | 5 |
| 10003 | 2017-11-22 | 22 |
最終的な集約結果は:
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 51 |
| 10001 | 2017-11-21 | 5 |
| 10002 | 2017-11-21 | 39 |
| 10003 | 2017-11-22 | 22 |
select count (*) from table;の正しい結果は4になるはずです。しかし、モデルがuser_idカラムのみをスキャンしてクエリ時に集約操作を行った場合、最終結果は3(10001、10002、10003)になります。集約操作を行わない場合、最終結果は5(2つのバッチで合計5行)になります。明らかに、どちらの結果も間違っています。
正しい結果を得るためには、user_idとdateカラムの両方を読み取り、クエリ時に集約を実行する必要があります。つまり、count (*)クエリでは、Dorisはすべてのaggregate keyカラム(この場合はuser_idとdate)をスキャンし、それらを集約してセマンティクス的に正しい結果を得る必要があります。これは、集約カラムが多い場合、count (*)クエリが大量のデータのスキャンを伴う可能性があることを意味します。
したがって、頻繁にcount (*)クエリを実行する必要がある場合は、値1と集約タイプSUMのカラムを追加してcount (*)をシミュレートすることをお勧めします。この方法では、前述の例のTableスキーマは次のように修正されます:
| ColumnName | タイプ | AggregationType | Comment |
|---|---|---|---|
| user ID | BIGINT | User ID | |
| date | DATE | Date when the data are imported | |
| Cost | BIGINT | SUM | Total user consumption |
| count | BIGINT | SUM | For count queries |
上記では、値が常に1になるcountカラムを追加しており、select count (*) from table;の結果はselect sum (count) from table;の結果と同等になります。後者は前者よりもはるかに効率的です。ただし、この方法にも欠点があります。それは、ユーザーがAGGREGATE KEYカラムで同じ値を持つ行をインポートしないことを要求することです。そうでなければ、select sum (count) from table;はselect count (*) from table;のセマンティクスではなく、元々インポートされたデータの行数のみを表現できます。
別の方法は、値1で集約タイプがREPLACEのcoundカラムを追加することです。そうすると、select sum (count) from table;とselect count (*) from table;は同じ結果を生成できます。さらに、この方法では、インポートデータに同じAGGREGATE KEYカラムが存在しないことを要求されません。
MoW Unique Key Model
Unique ModelのMerge on Write実装では、Aggregate Modelと同じ制限は課されません。Merge on Writeでは、モデルが各インポートされたrowsetに対してdelete bitmapを追加し、上書きまたは削除されるデータをマークします。前述の例で、Batch 1がインポートされた後、データの状態は次のようになります:
batch 1
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 50 | false |
| 10002 | 2017-11-21 | 39 | false |
Batch 2がインポートされた後、最初のバッチの重複行は削除済みとしてマークされ、2つのバッチのデータの状態は次のようになります:
batch 1
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 50 | true |
| 10002 | 2017-11-21 | 39 | false |
batch 2
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 1 | false |
| 10001 | 2017-11-21 | 5 | false |
| 10003 | 2017-11-22 | 22 | false |
クエリでは、delete bitmapでtrueとマークされたすべてのデータは読み取られないため、データ集約は不要です。上記のデータには4つの有効な行があるため、クエリ結果も4になるはずです。これにより、1つのデータカラムのみをスキャンするため、最小限のオーバーヘッドも実現されます。
テスト環境では、Unique ModelのMerge on Writeでのcount(*)クエリは、Aggregate Modelよりも10倍高いパフォーマンスを提供します。
Duplicate model
Duplicate Modelは、集約セマンティクスを含まないため、Aggregate Modelと同じ制限を課しません。任意のカラムに対して、count (*)クエリでセマンティクス的に正しい結果を返すことができます。
Keyカラム
Duplicate、Aggregate、およびUnique Modelでは、Table作成時にKeyカラムが指定されますが、いくつかの違いがあります: Duplicate Modelでは、TableのKeyカラムは単なる「ソートカラム」とみなすことができ、一意の識別子ではありません。AggregateおよびUnique Modelでは、Keyカラムは「ソートカラム」であり「一意識別子カラム」でもあります。
データモデル選択の推奨事項
データモデルはTable構築時に確立され、その後変更不可能であるため、適切なデータモデルを選択することは非常に重要です。
- Aggregate Modelは、事前集約によってデータスキャン量とクエリ計算量を大幅に削減できます。そのため、固定パターンを持つレポートクエリシナリオに非常に適しています。しかし、このモデルは
count (*)クエリには不向きです。また、Valueカラムの集約方法が固定されているため、他のタイプの集約クエリではセマンティクスの正確性を考慮する必要があります。 - Unique Modelは、一意の主キーが必要なシナリオで主キーの一意性を保証します。欠点は、クエリでROLLUPなどの事前集約によってもたらされる利点を活用できないことです。集約クエリで高いパフォーマンス要件を持つユーザーには、バージョン1.2以降で新しく追加されたMerge on Write実装の使用をお勧めします。
- Duplicate Modelは、任意の次元のアドホッククエリに適しています。事前集約機能の利点を活用できない場合がありますが、Aggregate Modelを制約する要因に制限されず、カラムナストレージの利点を最大限に活用できます(関連するカラムのみを読み取り、すべてのKeyカラムではありません)。
- ユーザーが部分更新を使用する必要がある場合は、ドキュメントpartial-updateを参照してください。