メインコンテンツまでスキップ
バージョン: 4.x

読み込み概要

Apache Dorisは、データベースに様々なソースからデータをインポートできるよう、データのインポートおよび統合のための多様な方法を提供しています。これらの方法は4つのタイプに分類できます:

  • リアルタイム書き込み: データがHTTPまたはJDBC経由でDorisテーブルにリアルタイムで書き込まれ、即座の分析とクエリが必要なシナリオに適しています。

    • 少量のデータ(5分に一度)の場合は、JDBC INSERTを使用できます。

    • より高い並行性または頻度(20を超える並行書き込みまたは1分間に複数回の書き込み)の場合は、Group Commitを有効にして、JDBC INSERTまたはStream Loadを使用できます。

    • 高スループットの場合は、HTTP経由でStream Loadを使用できます。

  • ストリーミング同期: リアルタイムデータストリーム(例:Flink、Kafka、トランザクションデータベース)がDorisテーブルにインポートされ、リアルタイム分析とクエリに最適です。

    • Flink Doris Connectorを使用して、FlinkのリアルタイムデータストリームをDorisに書き込むことができます。

    • Kafkaのリアルタイムデータストリームには、Routine LoadまたはDoris Kafka Connectorを使用できます。Routine LoadはKafkaからDorisにデータを取得し、CSVおよびJSON形式をサポートしますが、Kafka ConnectorはDorisにデータを書き込み、Avro、JSON、CSV、およびProtobuf形式をサポートします。

    • Flink CDCまたはDataxを使用して、トランザクションデータベースのCDCデータストリームをDorisに書き込むことができます。

  • バッチインポート: 外部ストレージシステム(例:Object Storage、HDFS、ローカルファイル、NAS)からDorisテーブルにデータが一括ロードされ、非リアルタイムデータインポートのニーズに適しています。

    • Broker Loadを使用して、Object StorageおよびHDFSからのファイルをDorisに書き込むことができます。

    • INSERT INTO SELECTを使用して、Object Storage、HDFS、およびNASからのファイルをDorisに同期的にロードでき、JOBを使用して非同期で操作を実行できます。

    • Stream LoadまたはDoris Streamloaderを使用して、ローカルファイルをDorisに書き込むことができます。

  • 外部データソース統合: 外部ソース(例:Hive、JDBC、Iceberg)からデータをクエリし、部分的にDorisテーブルにインポートします。

    • Catalogを作成して外部ソースからデータを読み取り、INSERT INTO SELECTを使用してこのデータをDorisに同期でき、JOB経由で非同期実行できます。

Dorisの各インポート方法は、デフォルトで暗黙的なトランザクションです。トランザクションの詳細については、Transactionsを参照してください。

インポート方法のクイックオーバービュー

Dorisインポートプロセスは主に、データソース、データ形式、インポート方法、エラー処理、データ変換、トランザクションなどの様々な側面を含みます。以下の表で、各インポート方法に適したシナリオとサポートされているファイル形式を素早く参照できます。

インポート方法使用ケースサポートされているファイル形式インポートモード
Stream LoadローカルファイルのインポートまたはHTTP経由でのアプリケーションでのデータプッシュ。csv, json, parquet, orc同期
Broker Loadオブジェクトストレージ、HDFSなどからのインポート。csv, json, parquet, orc非同期
INSERT INTO VALUESJDBC経由でのデータ書き込み。SQL同期
INSERT INTO SELECTカタログ内のテーブルやObject Storage、HDFSのファイルなどの外部ソースからのインポート。SQL同期、Job経由での非同期
Routine LoadKafkaからのリアルタイムインポートcsv, json非同期
MySQL Loadローカルファイルからのインポート。csv同期
Group Commit高頻度での書き込み。使用されるインポート方法に依存-