メインコンテンツまでスキップ
バージョン: 4.x

ベストプラクティス

このドキュメントでは、主にデータエクスポート操作中にリソース使用率が適切かどうかを判断する方法と、より良いデータエクスポート効率を実現するためにリソース使用率を調整する方法について紹介します。

SELECT INTO OUTFILE

  1. 並列エクスポートを有効化する

    SELECT INTO OUTFILEで返される行数は、並列Writerの数を表します。Writerが多いほど、エクスポートの並列性は高くなりますが、出力ファイル数も増加します。Writerが1つしかない場合は、並列エクスポート機能を有効化することを試してください。

    SET enable_parallel_outfile=true

    有効化後、SELECT INTO OUTFILE操作は、クエリの並列性に基づいて対応する数のWriterを生成します。クエリの並列性は、セッション変数parallel_pipeline_task_numによって制御されます。デフォルトでは、BE当たりのCPUコア数の半分です。

    例えば、3つのBEノードを持つクラスターで、各ノードが8つのCPUコアを持つ場合、並列エクスポートが有効化されると、(4*3=)12のWriterが生成されます。

    enable_parallel_outfileが有効化されていても、すべてのクエリが並列でエクスポートできるわけではないことに注意してください。例えば、クエリにグローバルソートや集約セマンティクスが含まれている場合、並列でエクスポートできません。例えば:

    SELECT * FROM table ORDER BY id;

    SELECT SUM(cost) FROM table;
  2. エクスポート速度の確認

    SELECT INTO OUTFILEによって返される各行の結果には、対応するWriterの出力にかかった時間(秒単位)と速度(KB/s)が含まれます。

    同一ノード上の複数のWriterの速度を合計することで、単一ノードの書き込み速度が得られます。この速度をディスク帯域幅(ローカルへのエクスポート時など)やネットワーク帯域幅(オブジェクトストレージへのエクスポート時など)と比較して、帯域幅のボトルネックに達しているかどうかを確認できます。

Export

  1. 返却結果からエクスポート実行ステータスの確認

    Exportコマンドは本質的にタスクを複数のSELECT INTO OUTFILE句に分解して実行します。

    SHOW EXPORTコマンドによって返される結果には、二次元配列であるJSON文字列が含まれます。第一次元はExportの並行スレッド数を表し、並行スレッド数は同時に開始されたOutfileステートメントの数を表します。第二次元は単一のOutfileステートメントの返却結果を表します。例:

    [
    [
    {
    "fileNumber": "1",
    "totalRows": "640321",
    "fileSize": "350758307",
    "url": "file:///127.0.0.1/mnt/disk2/ftw/tmp/export/exp_59fd917c43874adc-9b1c3e9cd6e655be_*",
    "writeTime": "17.989",
    "writeSpeed": "19041.66"
    },
    {...},
    {...},
    {...}
    ],
    [
    {
    "fileNumber": "1",
    "totalRows": "646609",
    "fileSize": "354228704",
    "url": "file:///127.0.0.1/mnt/disk2/ftw/tmp/export/exp_c75b9d4b59bf4943-92eb94a7b97e46cb_*",
    "writeTime": "17.249",
    "writeSpeed": "20054.64"
    },
    {...},
    {...},
    {...}
    ]
    ]

上記の例では、2つのOutfileコマンドが開始されました。各コマンドは4つのWriterが並行して書き込みを行います。

Exportコマンドプロパティの`parallelism`パラメータを調整することで、並行Outfile操作の数を制御し、それによって並行性レベルを制御できます。

2. 並列性に影響するパラメータ

Exportジョブの並列性は2つのパラメータに依存します:

- `parallelism`

分割するOutfileコマンドの最大数を設定するために使用されます。

- `data_consistency`

パーティション内でOutfileコマンドを分割するかどうかを指定します。このパラメータはデフォルトで`partition`に設定されており、パーティション内での更なる分割は行わないことを意味します。つまり、Outfileコマンドの数は関与するパーティション数以下になります。`none`に設定した場合、パーティションが更に分割され、並行性を向上させることができますが、パーティションが書き込み中の場合、エクスポートの一貫性が犠牲になる可能性があります(すなわち、同じパーティションに対する異なるOutfileコマンドが、そのパーティションから異なるバージョンのデータをエクスポートする可能性があります)。

詳細については、Export Command Manualを参照してください

- `async_task_consumer_thread_num`

これは現在のクラスターが並行して実行できるExport Taskの数を示すFE設定パラメータです。デフォルト値は64です。Export Jobは並行性に基づいて複数のExport Taskに分割されます。すべてのExport Taskがこの閾値を共有します。クラスターが実行できる並行エクスポートタスクの全体数を増やすには、このパラメータを増やしてFEノードを再起動してください。
このページでは