ジョブの作成
デスクリプション
Doris Jobは設定されたプランに従って実行されるタスクです。特定の時刻または指定された時間間隔で事前定義された操作をトリガーするために使用され、いくつかのタスクを自動的に実行するのに役立ちます。機能的には、オペレーティングシステム上のスケジュールされたタスク(LinuxのcronやWindowsのスケジュールされたタスクなど)に似ています。
ジョブにはONE_TIMEとRECURRINGの2つのタイプがあります。このうち、ONE_TIMEタイプのジョブは指定された時点でトリガーされます。主に一回限りのタスクに使用される一方、RECURRINGタイプのジョブは指定された時間間隔内で周期的にトリガーされます。この方法は主に定期的なタスクに使用されます。
RECURRINGタイプのジョブは開始時刻と終了時刻、すなわちSTARTS/ENDSを指定できます。開始時刻が指定されていない場合、デフォルトの初回実行時刻は現在時刻 + 1スケジューリングサイクルです。終了時刻が指定されている場合、タスクの実行が完了します。終了時刻に達した(または超過した、または次の実行サイクルが終了時刻を超える)場合、FINISHEDステートに更新され、この時点でもうタスクは生成されません。
ジョブには4つのステート(RUNNING、STOPPED、PAUSED、FINISHED)があります。
初期ステートはRUNNINGです。RUNNINGステートのジョブは確立されたスケジューリングサイクルに従って実行用のTASKを生成します。ジョブが完了し終了時刻に達すると、ステートはFINISHEDに変更されます。
PAUSEDステートのジョブはRESUME操作によって再開でき、RUNNINGステートに変更されます。
STOPPEDステートのジョブはユーザーによって能動的にトリガーされ、実行中のジョブはキャンセルされジョブは削除されます。
FINISHEDステートのジョブはシステム内に24時間保持され、24時間後に削除されます。
JOBはジョブ情報のみを記述します。実行によってTASKが生成されます。TASKステータスはPENDING、RUNNING、SUCCEESS、FAILED、CANCELEDに分かれます。
PENDINGはトリガー時刻が到達したがリソースの実行を待機していることを意味します。リソースが割り当てられた後、ステータスはRUNNINGに変更されます。実行の成功/失敗はSUCCESS/FAILEDに変更されます。
CANCELEDはキャンセルステータスを意味します。TASKは最終ステータス、すなわちSUCCESS/FAILEDを永続化します。他のステータスは動作中に確認できますが、再起動すると表示されません。
Syntax
CREATE
JOB
<job_name>
ON SCHEDULE <schedule>
[ COMMENT <string> ]
DO <sql_body>
どこで:
schedule:
{ AT <at_timestamp> | EVERY <interval> [STARTS <start_timestamp> ] [ENDS <end_timestamp> ] }
どこで:
interval:
quantity { WEEK | DAY | HOUR | MINUTE }
必須パラメータ
1. <job_name>
ジョブ名。db内のユニークなイベントを識別します。ジョブ名はグローバルに一意である必要があります。同じ名前のジョブが既に存在する場合、エラーが報告されます。システムの内部使用のために inner_ プレフィックスを予約しているため、ユーザーは inner_ で始まる名前を作成できません。
2. <schedule>
ON SCHEDULE句は、ジョブのタイプ、トリガー時間、頻度を指定します。1回限りのジョブまたは定期的なジョブを指定できます。
3. <sql_body>
DO句は、ジョブがトリガーされた際に実行される操作、つまりSQL文を指定します。
オプションパラメータ
1. AT <at_timestamp>
フォーマット: 'YYYY-MM-DD HH:MM:SS'。1回限りのイベントに使用され、指定した日時のタイムスタンプで1度だけイベントが実行されることを指定します。実行が完了すると、ジョブのステータスはFINISHEDに変更されます。
2. EVERY <interval>
定期的に繰り返される操作を示します。ジョブの実行頻度を指定し、キーワードの後には時間間隔を指定する必要があります。これは日、時間、分、秒、または週を指定できます。
3. STARTS <start_timestamp>
フォーマット: 'YYYY-MM-DD HH:MM:SS'。ジョブの開始時間を指定するために使用されます。指定されない場合、現在時刻の次の時点から実行されます。開始時間は現在時刻より大きい必要があります。
4. ENDS <end_timestamp>
フォーマット: 'YYYY-MM-DD HH:MM:SS'。ジョブの終了時間を指定するために使用されます。指定されない場合、永続的な実行を意味します。日付は現在時刻より大きい必要があります。開始時間が指定されている場合、つまりSTARTSが指定されている場合、終了時間は開始時間より大きい必要があります。
アクセス制御要件
このSQLコマンドを実行するユーザーは、少なくとも以下の権限を持つ必要があります:
| Privilege | Object | 注釈 |
|---|---|---|
| ADMIN_PRIV | Database | 現在、この操作を実行するには ADMIN 権限のみをサポートしています |
使用上の注意
-
TASKは最新100件のレコードのみを保持します。
-
現在は INSERT internal table 操作のみをサポートしており、将来的にはより多くの操作をサポートする予定です。
-
次回のスケジュールされたタスク時間が期限切れになった際、つまりタスクの実行がスケジュールされる必要がある際に、現在のJOBでまだ履歴タスクが実行されている場合、現在のタスクスケジューリングはスキップされます。したがって、適切な実行間隔を制御することは非常に重要です。
例
-
my_jobという名前のジョブを作成し、毎分実行されます。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 MINUTE DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
db2.tbl2のデータをdb1.tbl1にインポートするために、2020-01-01 00:00:00に一度だけ実行される一回限りのジョブを作成する。
CREATE JOB my_job ON SCHEDULE AT '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
2020-01-01 00:00:00から実行を開始し、1日に1回実行する定期Jobを作成します。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 WHERE create_time >= days_add(now(),-1); -
2020-01-01 00:00:00に開始し、1日に1回実行する定期ジョブを作成します。操作はdb2.tbl2のデータをdb1.tbl1にインポートすることです。ジョブは2020-01-01 00:10:00に終了します。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' ENDS '2020-01-01 00:10:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 create_time >= days_add(now(),-1);
ベストプラクティス
- jobを適切に管理し、大量のjobが同時にトリガーされることを避けてください。これによりタスクの蓄積が発生し、システムの正常な動作に影響を与えます。
- タスク実行間隔は合理的な範囲内で設定し、少なくともタスク実行時間よりも長く設定してください。
関連ドキュメント
CONFIG
fe.conf
-
job_dispatch_timer_job_thread_num:定期タスクを配信するために使用されるスレッド数です。デフォルト値は2です。定期実行タスクが大量にある場合は、このパラメータを増やすことができます。
-
job_dispatch_timer_job_queue_size:タスクが蓄積された際に定期タスクを格納するキューサイズです。デフォルト値は1024です。大量のタスクが同時にトリガーされる場合は、このパラメータを増やすことができます。そうしないと、キューが満杯になり、送信されたタスクがブロック状態に入り、後続のタスクの送信が失敗する原因となります。
-
finished_job_cleanup_threshold_time_hour:完了したタスクをクリーンアップする時間閾値で、時間単位です。デフォルト値は24時間です。
-
job_insert_task_consumer_thread_num = 10:Insertタスクを実行するために使用されるスレッド数です。値は0より大きくする必要があります。そうでない場合、デフォルト値は5になります。