メインコンテンツまでスキップ
バージョン: 2.1

削除概要

Apache Dorisにおいて、削除操作は大規模データ分析シナリオにおけるユーザーの柔軟なニーズを満たすため、データの管理とクリーニングに不可欠です。

Dorisは、DELETE文、delete sign、パーティション削除、Table全体削除、一時パーティションを使用したアトミックオーバーライトなど、様々な削除機能を提供します。以下のセクションでは、各機能について詳しく説明します。

DELETE文

DELETE文はデータ削除において最も一般的に使用される方法であり、すべてのTableモデルをサポートしています。ユーザーは特定の条件を満たすデータを削除するために使用できます。

DELETE文の構文は以下の通りです:

DELETE FROM table_name WHERE condition;

DELETE文はほとんどの削除ニーズに対応できますが、一部のシナリオでは最も効率的ではない場合があります。様々な削除要件に柔軟かつ効率的に対応するため、Dorisでは以下の方法も提供しています。

Truncate パーティション

Dorisでは、日付パーティションやその他の方法でデータを管理することが一般的です。多くのユーザーは最近の期間(例:7日間)のデータのみを保持する必要があります。期限切れのデータパーティションについては、truncate partition機能を使用して効率的に削除できます。

DELETE文と比較して、truncate partitionは一部のパーティションメタデータを変更するだけで削除を完了できるため、このシナリオでは最適な方法です。

パーティション削除の構文は以下の通りです:

TRUNCATE TABLE tbl PARTITION(p1, p2);

Truncate Table

Truncate tableは、オフライン分析シナリオでデータを再実行する際など、Tableの構造を保持しながら迅速にTableをクリアする場合に適しています。

完全なtruncate tableの構文は以下の通りです:

TRUNCATE TABLE table_name;

Delete Sign

データ削除は、データ更新の一種と考えることができます。そのため、更新機能を持つプライマリキーモデル(Unique Key)では、ユーザーはdelete sign機能を使用して、データ更新として削除操作を実行できます。

例えば、CDCデータ同期シナリオでは、CDCプログラムはDELETE操作のbinlogにdelete signをマークできます。このデータがDorisに書き込まれると、対応するプライマリキーが削除されます。

この方法では、大量のプライマリキーのバッチ削除を実行でき、DELETE文よりも効率的です。

delete signは高度な機能であり、前述の方法と比較して使用がより複雑です。詳細な使用方法については、ドキュメントBatch Deletionを参照してください。

Temporary Partitionsを使用したAtomic Overwrite

場合によっては、ユーザーはパーティションのデータを書き換えたいことがあります。しかし、データを削除してからロードする場合、データが利用できない期間が発生します。この場合、ユーザーはまず対応するtemporary partitionを作成し、新しいデータをtemporary partitionにロードしてから、元のパーティションをアトミックに置換できます。詳細な使用方法については、ドキュメントAtomic Table Replacementを参照してください。

注意事項

  1. 削除操作は新しいデータバージョンを生成するため、頻繁な削除はバージョン数の増加を招き、クエリパフォーマンスに影響する可能性があります。
  2. 削除されたデータは、マージと圧縮が完了するまでストレージを占有し続けるため、削除操作自体は即座にストレージ使用量を削減しません。