ジョブの作成
説明
Doris Jobは設定されたプランに従って実行されるタスクです。特定の時刻または指定された時間間隔で事前定義された操作をトリガーするために使用され、一部のタスクを自動的に実行するのに役立ちます。機能的には、オペレーティングシステム上のスケジュールされたタスク(LinuxのcronやWindowsのスケジュールされたタスクなど)と似ています。
ジョブには2つのタイプがあります:ONE_TIMEとRECURRING。その中で、ONE_TIMEタイプのジョブは指定された時点でトリガーされます。主に1回限りのタスクに使用される一方、RECURRINGタイプのジョブは指定された時間間隔内で周期的にトリガーされます。この方法は主に定期的なタスクに使用されます。
RECURRINGタイプのジョブは開始時刻と終了時刻を指定することができます。つまりSTARTS/ENDSです。開始時刻が指定されていない場合、デフォルトの初回実行時刻は現在時刻 + 1スケジューリングサイクルになります。終了時刻が指定されている場合、タスクの実行が完了します。終了時刻に到達した(または超過した、または次の実行サイクルが終了時刻を超える)場合、FINISHED状態に更新され、この時点でタスクは生成されなくなります。
ジョブには4つの状態があります(RUNNING、STOPPED、PAUSED、FINISHED)。
初期状態はRUNNINGです。RUNNING状態のジョブは、確立されたスケジューリングサイクルに従って実行のためのTASKを生成します。ジョブが完了し終了時刻に達すると、状態はFINISHEDに変更されます。
PAUSED状態のジョブはRESUME操作によって再開でき、RUNNING状態に変更されます。
STOPPED状態のジョブはユーザーによって能動的にトリガーされ、実行中のジョブはキャンセルされ、ジョブは削除されます。
FINISHED状態のジョブはシステム内に24時間保持され、24時間後に削除されます。
JOBはジョブ情報のみを記述します。実行時にTASKが生成されます。TASKステータスはPENDING、RUNNING、SUCCEESS、FAILED、CANCELEDに分かれます。
PENDINGはトリガー時刻が到来したがリソースの実行を待機中であることを意味します。リソースが割り当てられた後、ステータスはRUNNINGに変更されます。実行の成功/失敗はSUCCESS/FAILEDに変更されます。
CANCELEDはキャンセルステータスを意味します。TASKは最終ステータス、つまりSUCCESS/FAILEDを永続化します。他のステータスは動作中に確認できますが、再起動時には表示されません。
構文
CREATE
JOB
<job_name>
ON SCHEDULE <schedule>
[ COMMENT <string> ]
DO <sql_body>
以下の場合:
schedule:
{ AT <at_timestamp> | EVERY <interval> [STARTS <start_timestamp> ] [ENDS <end_timestamp> ] }
どこで:
interval:
quantity { WEEK | DAY | HOUR | MINUTE }
必須パラメータ
1. <job_name>
ジョブ名。db内の一意のイベントを識別します。ジョブ名はグローバルに一意である必要があります。同じ名前のジョブが既に存在する場合、エラーが報告されます。システム内部使用のためinner_プレフィックスを予約しているため、ユーザーはinner_で始まる名前を作成できません。
2. <schedule>
ON SCHEDULE句は、ジョブのタイプ、トリガー時間、および頻度を指定します。一回限りのジョブまたは定期的なジョブを指定できます。
3. <sql_body>
DO句は、ジョブがトリガーされたときに実行される操作、つまりSQL文を指定します。
オプションパラメータ
1. AT <at_timestamp>
形式: 'YYYY-MM-DD HH:MM:SS'、一回限りのイベントに使用され、指定された日時のタイムスタンプでイベントが一度だけ実行されることを指定し、実行が完了するとジョブのステータスはFINISHEDに変更されます。
2. EVERY <interval>
定期的に繰り返される操作を示し、ジョブの実行頻度を指定します。キーワードの後には時間間隔を指定する必要があり、日、時間、分、秒、または週を指定できます。
3. STARTS <start_timestamp>
形式: 'YYYY-MM-DD HH:MM:SS'、ジョブの開始時間を指定するために使用されます。指定されない場合、現在の時間の次の時点から実行されます。開始時間は現在の時間よりも大きい必要があります。
4. ENDS <end_timestamp>
形式: 'YYYY-MM-DD HH:MM:SS'、ジョブの終了時間を指定するために使用されます。指定されない場合、永続的な実行を意味します。日付は現在の時間よりも大きい必要があります。開始時間が指定されている場合、つまりSTARTSが指定されている場合、終了時間は開始時間よりも大きい必要があります。
アクセス制御要件
このSQLコマンドを実行するユーザーは、少なくとも以下の権限を持っている必要があります:
| Privilege | Object | 注釈 |
|---|---|---|
| ADMIN_PRIV | Database | 現在この操作を実行するにはADMIN権限のみをサポートしています |
使用上の注意
-
TASKは最新の100件のレコードのみを保持します。
-
現在はINSERT internal table操作のみをサポートしており、将来的にはより多くの操作をサポート予定です。
-
次のスケジュールされたタスク時間が経過したとき、つまりタスクの実行がスケジュールされる必要があるとき、現在のJOBでまだ履歴タスクが実行されている場合、現在のタスクスケジューリングはスキップされます。したがって、合理的な実行間隔を制御することが非常に重要です。
例
-
my_jobという名前のジョブを作成し、1分ごとに実行されます。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 MINUTE DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
db2.tbl2のデータをdb1.tbl1にインポートするために、2020-01-01 00:00:00に一度だけ実行されるワンタイムジョブを作成します。
CREATE JOB my_job ON SCHEDULE AT '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
2020-01-01 00:00:00に実行を開始し、1日に1回実行される定期Jobを作成します。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 WHERE create_time >= days_add(now(),-1); -
2020-01-01 00:00:00に開始し、1日に1回実行される定期ジョブを作成します。操作はdb2.tbl2のデータをdb1.tbl1にインポートすることです。ジョブは2020-01-01 00:10:00に終了します。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' ENDS '2020-01-01 00:10:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 create_time >= days_add(now(),-1);
ベストプラクティス
- jobを適切に管理し、大量のjobが同時にトリガーされることを避けてください。これによりタスクの蓄積が発生し、システムの正常な動作に影響を与えます。
- タスク実行間隔は適切な範囲内に設定し、少なくともタスク実行時間よりも長くする必要があります。
関連ドキュメント
CONFIG
fe.conf
-
job_dispatch_timer_job_thread_num:時限タスクの配信に使用されるスレッド数。デフォルト値は2です。定期実行タスクが大量にある場合は、このパラメータを増加させることができます。
-
job_dispatch_timer_job_queue_size:タスクが蓄積された際に時限タスクを格納するキューのサイズ。デフォルト値は1024です。大量のタスクが同時にトリガーされる場合は、このパラメータを増加させることができます。そうしないと、キューが満杯になり、送信されたタスクがブロック状態になり、後続のタスクの送信が失敗する原因となります。
-
finished_job_cleanup_threshold_time_hour:完了したタスクをクリーンアップする時間閾値(時間単位)。デフォルト値は24時間です。
-
job_insert_task_consumer_thread_num = 10:Insertタスクの実行に使用されるスレッド数。値は0より大きくする必要があり、そうでなければデフォルト値は5になります。