メインコンテンツまでスキップ
バージョン: 4.x

Lakehouse概要

lakehouseは、データレイクとデータウェアハウスの利点を組み合わせた現代的なビッグデータソリューションです。データレイクの低コストと高いスケーラビリティに、データウェアハウスの高性能と強力なデータガバナンス機能を統合し、ビッグデータ時代における様々なデータの効率的で安全、かつ品質管理された保存と処理分析を可能にします。標準化されたオープンデータフォーマットとメタデータ管理を通じて、リアルタイム履歴データ、バッチ処理ストリーム処理を統一し、企業ビッグデータソリューションの新しい標準となりつつあります。

Doris Lakehouseソリューション

Dorisは、拡張可能なコネクタフレームワーク、コンピュート・ストレージ分離アーキテクチャ、高性能データ処理エンジン、そしてデータエコシステムのオープン性を通じて、ユーザーに優れたlakehouseソリューションを提供します。

doris lakehouse architecture

柔軟なデータアクセス

Dorisは拡張可能なコネクタフレームワークを通じて主流のデータシステムとデータフォーマットアクセスをサポートし、SQLベースの統一データ分析機能を提供することで、既存データを移動させることなく、ユーザーが簡単にクロスプラットフォームデータクエリと分析を実行できます。詳細については、カタログ 概要を参照してください

データソースコネクタ

Hive、Iceberg、Hudi、Paimon、またはJDBCプロトコルをサポートするデータベースシステムであっても、Dorisは簡単に接続し、効率的にデータにアクセスできます。

lakehouseシステムの場合、DorisはHive Metastore、AWS Glue、Unity CatalogなどのメタデータサービスからデータTableの構造と分散情報を取得し、適切なクエリプランニングを実行し、MPPアーキテクチャを活用した分散コンピューティングを行います。

詳細については、Iceberg カタログなどの各catalogドキュメントを参照してください

拡張可能なコネクタフレームワーク

Dorisは、開発者が企業内の独自のデータソースへ迅速に接続し、高速なデータ相互運用性を実現するための優れた拡張性フレームワークを提供します。

DorisはCatalog、Database、Tableの3つのレベルの標準を定義し、開発者が必要なデータソースレベルに簡単にマッピングできます。Dorisはメタデータサービスとストレージサービスアクセス用の標準インターフェースも提供し、開発者は対応するインターフェースを実装するだけでデータソース接続を完了できます。

DorisはTrino Connectorプラグインと互換性があり、TrinoプラグインパッケージをDorisクラスタに直接デプロイでき、最小限の設定で対応するデータソースにアクセスできます。Dorisは既にKuduBigQueryDelta Lakeなどのデータソースへの接続を完了しています。新しいプラグインを自分で適応させることも可能です。

便利なクロスソースデータ処理

Dorisは実行時に複数のデータcatalogの作成をサポートし、SQLを使用してこれらのデータソース上で連合クエリを実行できます。例えば、ユーザーはHive内のファクトTableデータとMySQL内のディメンションTableデータを関連付けてクエリできます:

SELECT h.id, m.name
FROM hive.db.hive_table h JOIN mysql.db.mysql_table m
ON h.id = m.id;

Dorisの組み込みjob scheduling機能と組み合わせることで、スケジュールされたタスクを作成してシステムの複雑さをさらに簡素化することもできます。例えば、ユーザーは上記のクエリの結果を1時間ごとに実行される定期タスクとして設定し、各結果をIcebergTableに書き込むことができます:

CREATE JOB schedule_load
ON SCHEDULE EVERY 1 HOUR DO
INSERT INTO iceberg.db.ice_table
SELECT h.id, m.name
FROM hive.db.hive_table h JOIN mysql.db.mysql_table m
ON h.id = m.id;

高性能データ処理

分析データウェアハウスとして、DorisはレイクハウスデータProcessingと計算において数多くの最適化を行い、豊富なクエリ高速化機能を提供しています:

  • 実行エンジン

    Doris実行エンジンはMPP実行フレームワークとPipelineデータ処理モデルに基づいており、マルチマシン・マルチコア分散環境で大量のデータを迅速に処理することができます。完全なベクトル化実行演算子により、DorisはTPC-DSなどの標準ベンチマークデータセットにおいて計算性能で優位に立っています。

  • クエリオプティマイザー

    Dorisはクエリオプティマイザーを通じて複雑なSQLリクエストを自動的に最適化・処理できます。クエリオプティマイザーはマルチTablejoin、集約、ソート、ページングなどの様々な複雑なSQL演算子を深く最適化し、コストモデルと関係代数変換を十分に活用して、より良いまたは最適な論理・物理実行プランを自動的に取得し、SQLの記述難易度を大幅に軽減し、使いやすさとパフォーマンスを向上させます。

  • データキャッシュとIO最適化

    外部データソースへのアクセスは通常ネットワークアクセスであり、高いレイテンシと安定性の低さを伴う可能性があります。Apache Dorisは豊富なキャッシュメカニズムを提供し、キャッシュタイプ、適時性、戦略において数多くの最適化を行い、メモリとローカル高速ディスクを十分に活用してホットデータの分析性能を向上させます。さらに、Dorisは高スループット、低IOPS、高レイテンシなどのネットワークIO特性に対して的確な最適化を行い、ローカルデータに匹敵する外部データソースアクセス性能を提供します。

  • マテリアライズドビューと透明な高速化

    Dorisは豊富なマテリアライズドビュー更新戦略を提供し、完全およびパーティションレベルの増分リフレッシュをサポートして構築コストを削減し、適時性を向上させます。手動リフレッシュに加えて、Dorisはスケジュールリフレッシュとデータ駆動リフレッシュもサポートし、メンテナンスコストをさらに削減し、データ整合性を向上させます。マテリアライズドビューは透明な高速化機能も持ち、クエリオプティマイザーが適切なマテリアライズドビューに自動的にルーティングしてシームレスなクエリ高速化を実現できます。さらに、Dorisのマテリアライズドビューは高性能ストレージフォーマットを使用し、列ストレージ、圧縮、インテリジェントインデックス技術を通じて効率的なデータアクセス機能を提供し、データキャッシュの代替として機能してクエリ効率を向上させます。

以下に示すように、IcebergTableフォーマットに基づく1TB TPCDS標準テストセットにおいて、Dorisの99クエリ全体実行時間はTrinoの1/3のみです。

doris-tpcds

実際のユーザーシナリオでは、DorisはPrestoと比較して半分のリソースを使用しながら平均クエリレイテンシを20%、95パーセンタイルレイテンシを50%削減し、ユーザーエクスペリエンスを向上させながらリソースコストを大幅に削減しています。

doris-performance

便利なサービス移行

複数のデータソースを統合しレイクハウス変換を実現する過程で、システム間のSQL方言の構文と機能サポートの違いにより、SQLクエリのDorisへの移行が課題となります。適切な移行計画がなければ、ビジネス側は新システムのSQL構文に適応するため大幅な修正が必要になる場合があります。

この問題に対処するため、DorisはSQL Dialect Conversion Serviceを提供し、ユーザーが他のシステムのSQL方言を直接使用してデータクエリを行えるようにします。変換サービスはこれらのSQL方言をDoris SQLに変換し、ユーザーの移行コストを大幅に削減します。現在、DorisはPresto/Trino、Hive、PostgreSQL、Clickhouseなどの一般的なクエリエンジンのSQL方言変換をサポートし、一部の実際のユーザーシナリオでは99%を超える互換性を実現しています。

モダンなデプロイメントアーキテクチャ

バージョン3.0以降、Dorisはクラウドネイティブなコンピュート・ストレージ分離アーキテクチャをサポートします。このアーキテクチャは低コストと高い弾力性により、リソース利用率を効果的に向上させ、コンピュートとストレージの独立したスケーリングを可能にします。

compute-storage-decouple

上図はDorisのコンピュート・ストレージ分離のシステムアーキテクチャを示し、コンピュートとストレージを分離しています。コンピュートノードはもはやプライマリデータを保存せず、基盤の共有ストレージレイヤー(HDFSとオブジェクトストレージ)が統一されたプライマリデータストレージスペースとして機能し、コンピュートとストレージリソースの独立したスケーリングをサポートします。コンピュート・ストレージ分離アーキテクチャはレイクハウスソリューションに重要な利点をもたらします:

  • 低コストストレージ: ストレージとコンピュートリソースを独立してスケールでき、企業はコンピュートリソースを増やすことなくストレージ容量を増加させることができます。さらに、クラウドオブジェクトストレージを使用することで、企業はより低いストレージコストと高い可用性を享受でき、相対的に低い比率のホットデータのキャッシュには引き続きローカル高速ディスクを使用できます。

  • Single Source of Truth: すべてのデータが統一されたストレージレイヤーに保存され、同じデータを異なるコンピュートクラスターでアクセス・処理でき、データの整合性と整合性を保証し、データ同期と重複ストレージの複雑さを軽減します。

  • ワークロードの多様性: ユーザーは異なるワークロードニーズに基づいてコンピュートリソースを動的に割り当て、バッチ処理、リアルタイム分析、機械学習などの様々なアプリケーションシナリオをサポートできます。ストレージとコンピュートを分離することで、企業はより柔軟にリソース使用を最適化し、異なる負荷下での効率的な運用を確保できます。

さらに、ストレージ・コンピュート結合アーキテクチャの下では、エラスティックコンピュートノードを使用してレイクウェアハウスデータクエリシナリオでエラスティックコンピュート機能を提供できます。

オープン性

DorisはオープンなレイクTableフォーマットへのアクセスをサポートするだけでなく、自身が保存するデータに対しても良好なオープン性を持っています。DorisはオープンなストレージAPIを提供し、Arrow Flight SQLプロトコルに基づく高速データリンクを実装し、Arrow Flightの速度の利点とJDBC/ODBCの使いやすさを提供します。このインターフェースに基づいて、ユーザーはPython/Java/Spark/FlinkのABDCクライアントを使用してDorisに保存されたデータにアクセスできます。

オープンファイルフォーマットと比較して、オープンストレージAPIは基盤ファイルフォーマットの具体的な実装を抽象化し、Dorisが豊富なインデックスメカニズムなどのストレージフォーマットの高度な機能を通じてデータアクセスを高速化できるようにします。さらに、上位層コンピュートエンジンは基盤ストレージフォーマットの変更や新機能に適応する必要がなく、サポートされたすべてのコンピュートエンジンが同時に新機能の恩恵を受けることができます。

レイクハウスベストプラクティス

レイクハウスソリューションにおいて、Dorisは主にレイクハウスクエリ高速化マルチソース連合分析レイクハウスデータ処理に使用されます。

レイクハウスクエリ高速化

このシナリオでは、Dorisはコンピュートエンジンとして機能し、レイクハウスデータのクエリ分析を高速化します。

lakehouse クエリ加速

キャッシュ高速化

HiveやIcebergなどのレイクハウスシステムに対して、ユーザーはローカルディスクキャッシュを設定できます。ローカルディスクキャッシュは、クエリで設計されたデータファイルをローカルキャッシュディレクトリに自動的に保存し、LRU戦略を使用してキャッシュ削除を管理します。詳細はData Cacheドキュメントを参照してください。

マテリアライズドビューと透明なリライト

Dorisは外部データソースに対するマテリアライズドビューの作成をサポートします。マテリアライズドビューは、SQL定義文に基づいて事前計算された結果をDoris内部Tableフォーマットとして保存します。さらに、DorisのクエリオプティマイザーはSPJG(SELECT-PROJECT-JOIN-GROUP-BY)パターンに基づく透明なリライトアルゴリズムをサポートします。このアルゴリズムはSQLの構造情報を分析し、透明なリライトに適したマテリアライズドビューを自動的に見つけ、クエリSQLに応答する最適なマテリアライズドビューを選択できます。

この機能は実行時計算を削減することでクエリパフォーマンスを大幅に向上させることができます。また、ビジネスが意識することなく透明なリライトを通じてマテリアライズドビューのデータにアクセスすることも可能です。詳細はMaterialized Viewsドキュメントを参照してください。

マルチソース連合分析

Dorisは統一SQLクエリエンジンとして機能し、異なるデータソースを接続して連合分析を行い、データサイロの問題を解決できます。

federated analysis

ユーザーはDorisで複数のcatalogを動的に作成して異なるデータソースに接続できます。SQL文を使用して異なるデータソースのデータに対して任意のjoinクエリを実行できます。詳細はカタログ 概要を参照してください。

レイクハウスデータ処理

このシナリオでは、Dorisはデータ処理エンジンとして機能し、レイクハウスデータを処理します。

lakehouse data processing

タスクスケジューリング

DorisはJob Scheduler機能を導入し、効率的で柔軟なタスクスケジューリングを可能にし、外部システムへの依存を削減します。データソースコネクターと組み合わせることで、ユーザーは外部データの定期処理と保存を実現できます。詳細はJob Schedulerを参照してください。

データモデリング

ユーザーは通常、データレイクを使用して生データを保存し、この基盤上で階層化されたデータ処理を実行し、異なる層のデータを異なるビジネスニーズで利用できるようにします。Dorisのマテリアライズドビュー機能は外部データソースに対するマテリアライズドビューの作成をサポートし、マテリアライズドビューに基づくさらなる処理をサポートして、システムの複雑さを軽減し、データ処理効率を向上させます。

データライトバック

データライトバック機能はDorisのレイクハウスデータ処理機能のクローズドループを形成します。ユーザーはDorisを通じて外部データソースに直接データベースとTableを作成し、データを書き込むことができます。現在、JDBC、Hive、Icebergデータソースがサポートされており、将来的にはより多くのデータソースが追加される予定です。詳細は対応するデータソースのドキュメントを参照してください。