カラム圧縮
Dorisはcolumnar storageモデルを採用してデータを整理・保存しており、これは分析ワークロードに特に適しており、クエリ効率を大幅に向上させることができます。columnar storageでは、Tableの各カラムが独立して保存されるため、圧縮技術の適用が容易になり、ストレージ効率が向上します。Dorisは様々な圧縮アルゴリズムを提供しており、ユーザーはワークロードの要件に基づいて適切な圧縮方式を選択し、ストレージとクエリのパフォーマンスを最適化できます。
圧縮が必要な理由
Dorisにおいて、データ圧縮には主に以下の2つの核となる目的があります:
-
ストレージ効率の向上 圧縮により、データストレージに必要なディスク容量を大幅に削減でき、同じ物理リソースでより多くのデータを保存することができます。
-
パフォーマンスの最適化 圧縮されたデータの容量は小さくなり、クエリ時に必要なI/O操作が少なくなるため、クエリレスポンス時間が短縮されます。現代の圧縮アルゴリズムは通常非常に高速な伸張速度を持ち、ストレージ容量を削減しながら読み取り効率を向上させることができます。
サポートされている圧縮アルゴリズム
Dorisは様々な圧縮アルゴリズムをサポートしており、それぞれが圧縮率と伸張速度の間で異なるトレードオフを持っているため、ユーザーは需要に基づいて適切なアルゴリズムを選択できます:
| 圧縮タイプ | 特徴 | 適用シナリオ |
|---|---|---|
| No Compression | - データに圧縮を適用しない。 | 圧縮が不要なシナリオに適している。データが既に圧縮されている場合やストレージ容量が問題にならない場合など。 |
| LZ4 | - 非常に高速な圧縮・伸張速度。 - 適度な圧縮率。 | 伸張速度の要件が高いシナリオに適している。リアルタイムクエリや高並行負荷など。 |
| LZ4F (LZ4 Frame) | - より柔軟な圧縮設定をサポートするLZ4の拡張版。 - 高速度で適度な圧縮率。 | 設定の細かい制御を伴う高速圧縮が必要な場合。 |
| LZ4HC (LZ4 High Compression) | - LZ4と比較してより高い圧縮率だが、圧縮速度は遅い。 - 伸張速度はLZ4と同程度。 | より高い圧縮率が必要でありながら、伸張速度を重視する場合。 |
| ZSTD (Zstandard) | - 柔軟な圧縮レベル調整を伴う高い圧縮率。 - 高圧縮率でも伸張速度は高速を維持。 | 高いストレージ効率が求められ、同時にクエリパフォーマンスとのバランスが必要な場合。 |
| Snappy | - 高速な伸張のために設計されている。 - 適度な圧縮率。 | 高速な伸張速度と低いCPUオーバーヘッドが求められるシナリオに必要。 |
| Zlib | - 圧縮率と速度の良いバランス。 - 他のアルゴリズムと比較して圧縮・伸張速度は遅いが、より高い圧縮率。 | 高いストレージ効率が求められ、伸張速度に対する感度が低いシナリオに必要。アーカイブやコールドデータストレージなど。 |
圧縮の原理
カラム圧縮 columnar storageの採用により、DorisはTable内の各カラムを独立して圧縮できます。この方式は、同じカラム内のデータが類似した分布特性を持つことが多いため、圧縮効率を向上させます。
圧縮前のエンコーディング データを圧縮する前に、Dorisはカラムデータをエンコーディング(例:dictionary encoding、run-length encodingなど)し、データをより圧縮に適した形式に変換して、圧縮効率をさらに向上させます。
Pageレベル圧縮 Dorisはpageレベルの圧縮戦略を採用しています。各カラムのデータは複数のpageに分割され、各page内のデータが独立して圧縮されます。pageごとに圧縮することで、Dorisは大規模なデータセットを効率的に処理しながら、高い圧縮率と伸張パフォーマンスを確保できます。
設定可能な圧縮戦略 ユーザーはTable作成時に使用する圧縮アルゴリズムを指定できます。この柔軟性により、ユーザーは特定のワークロードに基づいて圧縮効率とパフォーマンスの間で最適な選択を行うことができます。
圧縮効果に影響する要因
異なる圧縮アルゴリズムにはそれぞれ利点と欠点がありますが、圧縮の効果は選択したアルゴリズムだけでなく、以下の要因にも依存します:
データの順序
データの順序は圧縮効果に大きな影響を与えます。順序性の高いカラム(例:タイムスタンプや連続する数値カラム)では、圧縮アルゴリズムは通常より良い結果を達成できます。データの順序が規則的であるほど、圧縮アルゴリズムは圧縮時により多くの反復パターンを識別でき、圧縮率が向上します。
データの冗長性
データカラム内の重複値が多いほど、圧縮効果はより顕著になります。例えば、重複値にdictionary encodingを使用すると、ストレージ容量を大幅に削減できます。しかし、明らかな重複のないデータカラムでは、圧縮効果は期待に届かない可能性があります。
データタイプ
データのタイプも圧縮効果に影響する可能性があります。一般的に、数値データタイプ(整数や浮動小数点数など)は文字列データタイプよりも圧縮しやすいです。値の範囲が広いデータタイプでは、圧縮アルゴリズムの効果が影響を受ける可能性があります。
カラム長
カラム内のデータの長さも圧縮効果に影響する可能性があります。短いカラムは通常、長いカラムよりも圧縮しやすく、これは圧縮アルゴリズムがより短いデータブロック内で反復パターンをより効率的に見つけられるためです。
Null値
カラム内のnull値の割合が高い場合、圧縮アルゴリズムはより効果的になる可能性があります。これらのnull値を特別なパターンとしてエンコードし、ストレージ容量を削減できるためです。
適切な圧縮アルゴリズムの選択方法
適切な圧縮アルゴリズムの選択は、ワークロードの特性に基づくべきです:
- 高性能リアルタイム分析シナリオでは、LZ4またはSnappyの使用を推奨します。
- ストレージ効率を優先するシナリオでは、ZSTDまたはZlibの使用を推奨します。
- 速度と圧縮率のバランスを取る必要があるシナリオでは、LZ4Fを選択できます。
- アーカイブまたはコールドデータストレージシナリオでは、ZlibまたはLZ4HCの使用を推奨します。
Dorisでの圧縮設定
Table作成時に圧縮アルゴリズムを指定して、データの保存方法を決定できます:
CREATE TABLE example_table (
id INT,
name STRING,
age INT
)
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(id) BUCKETS 10
PROPERTIES (
"compression" = "zstd"
);