Doris カタログ
この機能はバージョン4.0.2以降でサポートされています。
これは実験的機能です。
使用例
複数のDorisクラスター間でクロスクラスター連携分析を実行します。
JDBC カタログを通じて他のDorisクラスターに接続する方法とは異なり、このソリューションはArrow Flightまたはバーチャルクラスターモードを通じて効率的な複数Dorisクラスター連携分析を可能にします。
カタログの設定
構文
CREATE CATALOG [IF NOT EXISTS] catalog_name PROPERTIES (
'type' = 'doris', -- required
'fe_http_hosts' = 'http://<fe-host1>:<fe-http-port>,<fe-host2>:<fe-http-port>', -- required
'fe_arrow_hosts' = '<fe-host1>:<fe-arrow-flight-port>,<fe-host2>:<fe-arrow-flight-port>', -- required
'fe_thrift_hosts' = '<fe-host1>:<fe-thrift-port>,<fe-host2>:<fe-thrift-port>', -- required
'use_arrow_flight' = 'true/false', -- required
'user' = '', -- required
'password' = '', -- required
{QueryProperties},
{HttpClientProperties},
{CommonProperties}
);
-
fe_http_hostsリモートDorisクラスタのFE HTTPサービスエンドポイントのリスト。
-
fe_arrow_hostsリモートDorisクラスタのFE Arrow Flightサービスエンドポイントのリスト。
-
fe_thrift_hostsリモートDorisクラスタのFE Thriftサービスエンドポイントのリスト。
注意: バージョン4.0.2では、Master FEのアドレスを使用してください。この問題は次のバージョンで修正される予定です。
-
use_arrow_flightArrow Flightを使用してリモートDorisクラスタにアクセスするか、リモートTableを内部Tableとして扱い実行プランをリモートDorisクラスタに送信して実行するかを指定します。
-
{QueryProperties}オプションプロパティ
パラメータ名 説明 デフォルト値 enable_parallel_result_sink有効にすると、ローカルDoris BEノードはリモートDorisクラスタの各BEノードから並列でデータをプルします。(Arrow Flightモード用) true query_retry_countリモートDorisへの失敗したクエリリクエストの最大再試行回数。(リモートDorisがリクエストを受け入れた後の非同期実行中に発生する可能性のある失敗は含まれません) 3 query_timeout_secリモートDorisへのクエリ送信のタイムアウト。(リモートDorisがリクエストを受け入れた後の非同期実行時間は含まれません) 15 compatibleローカルクラスタよりも低いバージョンのリモートDorisにアクセスする際のメタデータフォーマットとの互換性を試行するために使用されます。クラスタバージョンが一致している場合は有効にする必要はありません。 false -
{HttpClientProperties}HttpClientPropertiesセクションは、HTTP Client関連のパラメータを設定するために使用されます。このクライアントは、リモートクラスタのメタデータを同期するためのHTTPリクエストの送信に使用されます。これらはすべてオプションパラメータです。
パラメータ名 説明 デフォルト値 metadata_http_ssl_enabledHTTPメタデータ同期でSSL/TLS暗号化通信を有効にするかどうか。 false metadata_sync_retry_countHTTPリクエスト失敗の最大再試行回数 3 metadata_max_idle_connectionsHTTPメタデータ同期クライアントの最大アイドル接続数 5 metadata_keep_alive_duration_secHTTPメタデータ同期クライアントのアイドル接続キープアライブ期間 300 metadata_connect_timeout_secHTTPメタデータ同期クライアントのTCP接続タイムアウト 10 metadata_read_timeout_secHTTPメタデータ同期クライアントのソケット読み取りタイムアウト 10 metadata_write_timeout_secHTTPメタデータ同期クライアントのソケット書き込みタイムアウト 10 metadata_call_timeout_secHTTPメタデータ同期クライアントのHTTPリクエスト総タイムアウト 10 -
{CommonProperties}CommonPropertiesセクションは、共通プロパティの入力に使用されます。データカタログ Overviewの[Common Properties]セクションを参照してください。
アクセスモード
Arrow Flightモード
4.0.2以降でサポート。
use_arrow_flightプロパティがtrueの場合、Arrow Flightモードで動作します。

このモードでは、クラスタ間クエリ時にFEがHTTPプロトコルを通じてスキーマやその他のメタデータを同期し、その後ローカルクラスタのBEノードがArrow FlightインターフェースでRemote Dorisクラスタにアクセスします。
利点: FEへのオーバーヘッドが最小限、実行プランはクエリSQLのみを生成してリモートクラスタに送信
欠点: 集約プッシュダウン、限定的な述語プッシュダウンなど、Doris内部Tableの様々な最適化機能を利用できない場合があります。
仮想クラスタモード
4.0.3以降でサポート。
use_arrow_flightプロパティがfalseの場合、仮想クラスタモードで動作します。
現在、このモードはコンピュート・ストレージ結合型Dorisクラスタのみをサポートしています。

このモードでは、クラスタ間クエリ時にRemote DorisクラスタのBackendノードをクエリプランニングのための仮想ノードとして扱います。
FEはHTTPプロトコルを通じてスキーマやその他のメタデータを同期します。BEは内部通信プロトコルを通じて直接データを転送します。
利点: Doris内部Tableクエリのほぼすべての最適化機能を利用可能。クエリ実行プロセスは単一クラスタ内部プロセスと一致。
欠点: 大きなリモートTableの場合、リモートTableのすべての情報(パーティション情報、レプリカ情報)を取得します。FEメモリオーバーヘッドが増加し、FEメモリ拡張が必要。高バージョンが低バージョンをクエリするなど、クラスタバージョンが一致しない場合、クエリ失敗が発生する可能性があります。
カラム型マッピング
Arrow Flightモード
このモードでサポートされるカラム型とTable型は、Arrow Flight SQLの機能に依存します。現在、以下の機能と制限があります:
- すべてのプリミティブ型をサポート
- すべてのネスト型(Array、Map、Struct)をサポート
- hll、bitmap、variant型はサポートしません
- すべてのTableモデル(詳細Table、集約Table、主キーTable)をサポート
仮想クラスタモード
仮想クラスタモードでは、すべてのカラム型とすべてのTableモデル(詳細Table、集約Table、主キーTable)がサポートされます。
クエリ操作
カタログを設定後、以下の方法でカタログ内のTableデータをクエリできます:
-- 1. switch to catalog, use database and query
SWITCH doris_ctl;
USE doris_db;
SELECT * FROM doris_tbl LIMIT 10;
-- 2. use doris database directly
USE doris_ctl.doris_db;
SELECT * FROM doris_tbl LIMIT 10;
-- 3. use full qualified name to query
SELECT * FROM doris_ctl.doris_db.doris_tbl LIMIT 10;
クエリ最適化
Arrow Flight Mode
このモードでは、Dorisは述語や関数条件のプッシュダウンを試行し、それらを生成されたSQLに連結します。
生成されたSQL文はEXPLAIN SQLを通じて確認できます。
...
| 0:VREMOTE_DORIS_SCAN_NODE(68) |
| TABLE: test.test_time |
| QUERY: SELECT /*+ SET_VAR(enable_parallel_result_sink=true) */ `timestamp` FROM test.test_time WHERE (timestamp > '2025-11-03 00:00:00.000') |
| PREDICATES: (timestamp[#0] > '2025-11-03 00:00:00.000')
...
Virtual Cluster Mode
このモードでは、実行プランは引き続きVOlapScanNodeを表示します。
Join Runtime Filterなど、Doris内部Tableクエリに対する様々な最適化を引き続き利用することができます。
MySQL [(none)]> explain select * from demo.inner_table a join edoris.external.example_tbl_duplicate b on (a.log_type = b.log_type) where error_code=2;
+-------------------------------------------------------------------------------------------------------------------------------------------+
| Explain String(Nereids Planner) |
+-------------------------------------------------------------------------------------------------------------------------------------------+
| PLAN FRAGMENT 0 |
| OUTPUT EXPRS: |
| log_type[#16] |
| reason[#17] |
| log_time[#18] |
| log_type[#19] |
| error_code[#20] |
| error_msg[#21] |
| op_id[#22] |
| op_time[#23] |
| PARTITION: HASH_PARTITIONED: log_type[#6] |
| |
| HAS_COLO_PLAN_NODE: false |
| |
| VRESULT SINK |
| MYSQL_PROTOCOL |
| |
| 3:VHASH JOIN(200) |
| | join op: INNER JOIN(BROADCAST)[] |
| | equal join conjunct: (log_type[#6] = log_type[#1]) |
| | cardinality=3 |
| | vec output tuple id: 3 |
| | output tuple id: 3 |
| | vIntermediate tuple ids: 2 |
| | hash output slot ids: 0 1 2 3 4 5 6 7 |
| | runtime filters: RF000[min_max] <- log_type[#1](1/1/1048576), RF001[in_or_bloom] <- log_type[#1](1/1/1048576) |
| | final projections: log_type[#8], reason[#9], log_time[#10], log_type[#11], error_code[#12], error_msg[#13], op_id[#14], op_time[#15] |
| | final project output tuple id: 3 |
| | distribute expr lists: log_type[#6] |
| | distribute expr lists: |
| | |
| |----1:VEXCHANGE |
| | offset: 0 |
| | distribute expr lists: log_type[#1] |
| | |
| 2:VOlapScanNode(187) |
| TABLE: demo.inner_table(inner_table), PREAGGREGATION: ON |
| partitions=1/1 (inner_table) |
| tablets=1/1, tabletList=1762832514491 |
| cardinality=3, avgRowSize=901.6666, numNodes=1 |
| pushAggOp=NONE |
| runtime filters: RF000[min_max] -> log_type[#6], RF001[in_or_bloom] -> log_type[#6] |
| |
| PLAN FRAGMENT 1 |
| |
| PARTITION: HASH_PARTITIONED: log_type[#1] |
| |
| HAS_COLO_PLAN_NODE: false |
| |
| STREAM DATA SINK |
| EXCHANGE ID: 01 |
| UNPARTITIONED |
| |
| 0:VOlapScanNode(188) |
| TABLE: external.example_tbl_duplicate(example_tbl_duplicate), PREAGGREGATION: ON |
| PREDICATES: (error_code[#2] = 2) |
| partitions=1/1 (example_tbl_duplicate) |
| tablets=1/1, tabletList=1762481736238 |
| cardinality=1, avgRowSize=7425.0, numNodes=1 |
| pushAggOp=NONE