JOB作成
説明
Doris Jobは設定された計画に従って実行されるタスクです。これは特定の時間または指定された時間間隔で事前定義された操作をトリガーするために使用され、いくつかのタスクを自動的に実行するのに役立ちます。機能的には、オペレーティングシステム上のスケジュールタスク(LinuxのcronやWindowsのスケジュールタスクなど)に似ています。
ジョブにはONE_TIMEとRECURRINGの2つのタイプがあります。その中で、ONE_TIMEタイプのジョブは指定された時間ポイントでトリガーされます。これは主に一回限りのタスクに使用され、一方RECURRINGタイプのジョブは指定された時間間隔内で周期的にトリガーされます。この方法は主に定期的なタスクに使用されます。
RECURRINGタイプのジョブは開始時間と終了時間、つまりSTARTS/ENDSを指定できます。開始時間が指定されていない場合、デフォルトの最初の実行時間は現在時刻 + 1スケジューリングサイクルです。終了時間が指定されている場合、タスクの実行が完了します。終了時間に達した場合(または超過した場合、または次の実行サイクルが終了時間を超える場合)、FINISHED状態に更新され、この時点でタスクは生成されなくなります。
ジョブには4つの状態があります(RUNNING、STOPPED、PAUSED、FINISHED)。
初期状態はRUNNINGです。RUNNING状態のジョブは、確立されたスケジューリングサイクルに従って実行のためのTASKを生成します。ジョブが完了し終了時間に達すると、状態はFINISHEDに変更されます。
PAUSED状態のジョブはRESUME操作を通じて再開でき、RUNNING状態に変更されます。
STOPPED状態のジョブはユーザーによって能動的にトリガーされ、実行中のジョブがキャンセルされ、ジョブが削除されます。
FINISHED状態のジョブは24時間システムに保持され、24時間後に削除されます。
JOBはジョブ情報のみを記述します。実行はTASKを生成します。TASKステータスはPENDING、RUNNING、SUCCEESS、FAILED、CANCELEDに分かれています。
PENDINGはトリガー時間が到来したがリソースの実行を待機していることを意味します。リソースが割り当てられた後、ステータスはRUNNINGに変更されます。実行の成功/失敗はSUCCESS/FAILEDに変更されます。
CANCELEDはキャンセルステータスを意味します。TASKは最終ステータス、つまりSUCCESS/FAILEDを永続化します。その他のステータスは操作中に確認できますが、再起動時には表示されません。
構文
CREATE
JOB
<job_name>
ON SCHEDULE <schedule>
[ COMMENT <string> ]
DO <sql_body>
どこで:
schedule:
{ AT <at_timestamp> | EVERY <interval> [STARTS <start_timestamp> ] [ENDS <end_timestamp> ] }
どこで:
interval:
quantity { WEEK | DAY | HOUR | MINUTE }
必須パラメータ
1. <job_name>
ジョブ名。dbにおいて一意のイベントを識別します。ジョブ名はグローバルに一意である必要があります。同じ名前のジョブがすでに存在する場合、エラーが報告されます。システム内部での使用のためにinner_プレフィックスを予約しているため、ユーザーはinner_で始まる名前を作成することはできません。
2. <schedule>
ON SCHEDULE句は、ジョブの種類、トリガー時刻、および頻度を指定します。一回限りのジョブまたは定期的なジョブを指定できます。
3. <sql_body>
DO句は、ジョブがトリガーされた際に実行される操作、つまりSQL文を指定します。
オプションパラメータ
1. AT <at_timestamp>
フォーマット: 'YYYY-MM-DD HH:MM:SS'。一回限りのイベントに使用され、指定された日時のタイムスタンプで一度だけイベントを実行することを指定します。実行が完了すると、ジョブステータスはFINISHEDに変更されます。
2. EVERY <interval>
定期的に繰り返される操作を示します。ジョブの実行頻度を指定し、キーワードの後に時間間隔を指定する必要があります。日、時間、分、秒、または週を指定できます。
3. STARTS <start_timestamp>
フォーマット: 'YYYY-MM-DD HH:MM:SS'。ジョブの開始時刻を指定するために使用されます。指定されていない場合、現在時刻以降の次の時点から実行されます。開始時刻は現在時刻より大きくなければなりません。
4. ENDS <end_timestamp>
フォーマット: 'YYYY-MM-DD HH:MM:SS'。ジョブの終了時刻を指定するために使用されます。指定されていない場合、永続的な実行を意味します。日時は現在時刻より大きくなければなりません。開始時刻が指定されている場合、つまりSTARTSが指定されている場合、終了時刻は開始時刻より大きくなければなりません。
アクセス制御要件
このSQLコマンドを実行するユーザーは、少なくとも以下の権限を持っている必要があります:
| Privilege | Object | 注釈 |
|---|---|---|
| ADMIN_PRIV | Database | 現在、この操作を実行するにはADMIN権限のみをサポートしています |
使用上の注意
-
TASKは最新の100件のレコードのみを保持します。
-
現在はINSERT internal table操作のみをサポートしており、将来的にはより多くの操作をサポート予定です。
-
次のスケジュールされたタスク時刻が経過した際、つまりタスクの実行がスケジュールされる必要がある時に、現在のJOBで過去のタスクがまだ実行中の場合、現在のタスクスケジューリングはスキップされます。そのため、適切な実行間隔を制御することが非常に重要です。
例
-
my_jobという名前のジョブを作成し、1分ごとに実行されます。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 MINUTE DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
2020-01-01 00:00:00に一度だけ実行される一回限りのジョブを作成し、db2.tbl2のデータをdb1.tbl1にインポートする。
CREATE JOB my_job ON SCHEDULE AT '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
2020-01-01 00:00:00から実行を開始し、1日に1回実行する定期的なJobを作成します。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 WHERE create_time >= days_add(now(),-1); -
2020-01-01 00:00:00に開始し、1日に1回実行する定期ジョブを作成します。操作内容は、db2.tbl2のデータをdb1.tbl1にインポートすることです。ジョブは2020-01-01 00:10:00に終了します。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' ENDS '2020-01-01 00:10:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 create_time >= days_add(now(),-1);
ベストプラクティス
- jobを適切に管理し、大量のjobが同時にトリガーされることを避けてください。これによりタスクの蓄積が発生し、システムの正常な動作に影響を与えます。
- タスクの実行間隔は適切な範囲内で設定し、少なくともタスクの実行時間より大きくする必要があります。
関連ドキュメント
CONFIG
fe.conf
-
job_dispatch_timer_job_thread_num:時間指定タスクの配布に使用するスレッド数。デフォルト値は2です。定期実行タスクが大量にある場合は、このパラメータを増やすことができます。
-
job_dispatch_timer_job_queue_size:タスクが蓄積された際に時間指定タスクを格納するキューサイズ。デフォルト値は1024です。大量のタスクが同時にトリガーされる場合は、このパラメータを増やすことができます。そうしないと、キューが満杯になり、送信されたタスクがブロック状態に入り、後続のタスクの送信が失敗する原因となります。
-
finished_job_cleanup_threshold_time_hour:完了したタスクをクリーンアップする時間閾値(時間単位)。デフォルト値は24時間です。
-
job_insert_task_consumer_thread_num = 10:Insertタスクの実行に使用するスレッド数。値は0より大きくする必要があり、そうでない場合はデフォルト値の5が使用されます。