Sort KeyとPrefix Index
Index Principles
Dorisはデータを SSTable (Sorted String Table) に類似した構造で格納します。この構造は、1つ以上の指定された列に従ってソートされて格納される順序付きデータ構造です。このようなデータ構造では、ソート列の全部または一部に対する検索条件の検索が非常に効率的です。
Aggregate、Unique、Duplicateデータモデルでは、基盤となるデータストレージは、CREATE TABLE文でそれぞれAGGREGATE KEY、UNIQUE KEY、DUPLICATE KEYの下で指定された列に従ってソートされます。これらのキーはソートキーと呼ばれます。ソートキーにより、Dorisはクエリ時にソート列に対して条件を指定することで、Table全体をスキャンすることなく必要なデータを迅速に特定し、検索の複雑さを軽減してクエリを高速化できます。
ソートキーに基づいて、Dorisはプレフィックスインデックスを導入します。プレフィックスインデックスはスパースインデックスです。Table内のデータは、対応する行数に従って論理データブロック (Data Block) を形成します。各論理データブロックは、プレフィックスインデックスTableにインデックスエントリを格納し、インデックスエントリの長さは36バイトを超えません。エントリの内容は、データブロック内の最初の行のソート列で構成されるプレフィックスです。プレフィックスインデックスTableを検索する際、行データが配置されている論理データブロックの開始行番号を特定するのに役立ちます。プレフィックスインデックスは比較的小さいため、メモリに完全にキャッシュでき、データブロックの迅速な特定を可能にし、クエリ効率を大幅に向上させます。
データブロック内の行の最初の36バイトが、その行のプレフィックスインデックスとして使用されます。VARCHAR型に遭遇した場合、プレフィックスインデックスは直接切り捨てられます。最初の列がVARCHARの場合、36バイトに達していなくても直接切り捨てられ、後続の列はプレフィックスインデックスに含まれません。
使用ケース
プレフィックスインデックスは等価クエリと範囲クエリを高速化できます。
インデックスの管理
プレフィックスインデックスを定義する特別な構文はありません。Tableを作成する際、TableのKeyの最初の36バイトが自動的にプレフィックスインデックスとして取得されます。
プレフィックスインデックス選択の推奨事項
TableのKey定義は一意であるため、Tableには1つのプレフィックスインデックスのセットのみがあります。したがって、Table構造を設計する際に適切なプレフィックスインデックスを選択することが重要です。以下の推奨事項を考慮できます:
- WHEREフィルタリング条件で最も一般的に使用されるフィールドをKeyとして選択する。
- より頻繁に使用されるフィールドを前方に配置する。プレフィックスインデックスは、WHERE条件でKeyのプレフィックスの一部であるフィールドに対してのみ有効です。
プレフィックスインデックスでカバーされない他の列を条件として使用するクエリの場合、効率が要件を満たさない可能性があります。2つの解決策があります:
- 高速化クエリが必要な列に転置インデックスを作成する。Tableには多くの転置インデックスを持つことができます。
- DUPLICATETableの場合、列順序を調整した対応する強一貫性マテリアライズドビューを作成することで、間接的にマルチプレフィックスインデックスを実現できます。詳細については、クエリ高速化/マテリアライズドビューを参照してください。
インデックスの使用
プレフィックスインデックスは、WHERE句での等価クエリと範囲クエリを高速化するために使用されます。該当する場合は自動的に有効になり、特別な構文は必要ありません。
プレフィックスインデックスの高速化効果は、Query Profileの以下のメトリクスを使用して分析できます:
- RowsKeyRangeFiltered: プレフィックスインデックスによってフィルタリングされた行数。他のRows値と比較してインデックスのフィルタリング効果を分析できます。
使用例
- Tableのソート列が以下のとおりであるとすると、プレフィックスインデックスは次のようになります:user_id (8 Bytes) + age (4 Bytes) + message (プレフィックス 20 Bytes)。
| ColumnName | タイプ |
|---|---|
| user_id | BIGINT |
| age | INT |
| message | VARCHAR(100) |
| max_dwell_time | DATETIME |
| min_dwell_time | DATETIME |
- Tableのソート列が以下のとおりであるとすると、プレフィックスインデックスはuser_name (20 Bytes)になります。36バイトに達していなくても、VARCHARに遭遇したため直接切り捨てられ、後続の列は含まれません。
| ColumnName | タイプ |
|---|---|
| user_name | VARCHAR(20) |
| age | INT |
| message | VARCHAR(100) |
| max_dwell_time | DATETIME |
| min_dwell_time | DATETIME |
- クエリ条件がプレフィックスインデックスのプレフィックスである場合、クエリを大幅に高速化できます。例えば、最初の例で以下のクエリを実行する場合:
SELECT * FROM table WHERE user_id = 1829239 AND age = 20;
このクエリは以下のクエリよりもはるかに効率的です:
SELECT * FROM table WHERE age = 20;
したがって、Table作成時に正しいカラム順序を選択することで、クエリ効率を大幅に向上させることができます。