ソートキーとプレフィックスインデックス
Index原則
DorisはSSTable(Sorted String Table)に似た構造でデータを格納します。この構造は、1つ以上の指定された列に従ってソートして格納できる順序付きデータ構造です。このようなデータ構造では、ソート列の全部または一部に対する検索条件を高効率で実行できます。
Aggregate、Unique、およびDuplicateデータモデルでは、基盤となるデータストレージは、CREATE TABLE文でAGGREGATE KEY、UNIQUE KEY、およびDUPLICATE KEYの下で指定された列に従ってソートされます。これらのキーはソートキーと呼ばれます。ソートキーにより、Dorisはクエリ中にソート列に条件を指定することで、Table全体をスキャンすることなく必要なデータを素早く特定でき、検索の複雑さを軽減してクエリを高速化できます。
ソートキーに基づいて、Dorisはプレフィックスインデックスを導入しています。プレフィックスインデックスはスパースインデックスです。Table内のデータは、対応する行数に従って論理データブロック(Data Block)を形成します。各論理データブロックは、プレフィックスインデックスTableにインデックスエントリを格納し、インデックスエントリの長さは36バイトを超えません。エントリの内容は、データブロック内の最初の行のソート列で構成されるプレフィックスです。プレフィックスインデックスTableを検索する際、行データが位置する論理データブロックの開始行番号の特定に役立ちます。プレフィックスインデックスは比較的小さいため、メモリに完全にキャッシュでき、データブロックの高速な特定を可能にし、クエリ効率を大幅に向上させます。
データブロック内の行の最初の36バイトが、その行のプレフィックスインデックスとして使用されます。VARCHAR型に遭遇した場合、プレフィックスインデックスは直接切り捨てられます。最初の列がVARCHARの場合、36バイトに達していなくても直接切り捨てられ、後続の列はプレフィックスインデックスに含まれません。
使用ケース
プレフィックスインデックスは等価クエリと範囲クエリを高速化できます。
インデックスの管理
プレフィックスインデックスを定義する特定の構文はありません。Table作成時に、TableのKeyの最初の36バイトが自動的にプレフィックスインデックスとして取得されます。
プレフィックスインデックス選択の推奨事項
TableのKey定義は一意であるため、Tableには1つのプレフィックスインデックスセットしかありません。そのため、Table構造を設計する際に適切なプレフィックスインデックスを選択することが重要です。以下の推奨事項を考慮できます:
- WHERフィルタリング条件で最も一般的に使用されるフィールドをKeyとして選択する。
- より頻繁に使用されるフィールドを前に配置する。プレフィックスインデックスは、WHERE条件内のKeyのプレフィックスの一部であるフィールドに対してのみ効果的であるため。
プレフィックスインデックスでカバーされていない他の列を条件として使用するクエリの場合、効率が要件を満たさない可能性があります。2つの解決策があります:
- 高速化が必要なクエリの列に転置インデックスを作成する。Tableには多くの転置インデックスを持つことができます。
- DUPLICATETableの場合、列の順序を調整した対応する強整合性マテリアライズドビューを作成することで、間接的にマルチプレフィックスインデックスを実現できます。詳細については、クエリ高速化/マテリアライズドビューを参照してください。
インデックスの使用
プレフィックスインデックスはWHERE句での等価クエリと範囲クエリの高速化に使用されます。該当する場合は自動的に有効になり、特別な構文は必要ありません。
プレフィックスインデックスの高速化効果は、Query Profileの以下のメトリクスを使用して分析できます:
- RowsKeyRangeFiltered:プレフィックスインデックスによってフィルタリングされた行数。他のRows値と比較してインデックスのフィルタリング効果を分析できます。
使用例
- Tableのソート列が以下の通りであるとすると、プレフィックスインデックスは:user_id(8 Bytes)+ age(4 Bytes)+ message(プレフィックス20 Bytes)になります。
| ColumnName | タイプ |
|---|---|
| user_id | BIGINT |
| age | INT |
| message | VARCHAR(100) |
| max_dwell_time | DATETIME |
| min_dwell_time | DATETIME |
- Tableのソート列が以下の通りであるとすると、プレフィックスインデックスはuser_name(20 Bytes)になります。36バイトに達していなくても、VARCHARに遭遇するため直接切り捨てられ、後続の列は含まれません。
| ColumnName | タイプ |
|---|---|
| user_name | VARCHAR(20) |
| age | INT |
| message | VARCHAR(100) |
| max_dwell_time | DATETIME |
| min_dwell_time | DATETIME |
- クエリ条件がプレフィックスインデックスのプレフィックスである場合、クエリを大幅に高速化できます。例えば、最初の例で以下のクエリを実行する場合:
SELECT * FROM table WHERE user_id = 1829239 AND age = 20;
このクエリは以下のクエリよりもはるかに効率的です:
SELECT * FROM table WHERE age = 20;
したがって、Table作成時に正しいカラムの順序を選択することで、クエリの効率を大幅に向上させることができます。