バージョン: 26.x

SPLIT_BY_REGEXP/REGEXP_SPLIT_TO_ARRAY

説明

SPLIT_BY_REGEXP関数は、指定された正規表現パターンに基づいて文字列を文字列の配列に分割します。SPLIT_BY_STRINGとは異なり、この関数はより柔軟な分割ルールのために複雑な正規表現マッチングをサポートしています。オプションで最大分割数の制限をサポートしており、これは構造化テキスト処理、データクレンジング、およびパターンマッチングに有用です。

構文

SPLIT_BY_REGEXP(<str>, <pattern> [, <max_limit>])

パラメータ

Parameter	デスクリプション
`<str>`	分割対象のソース文字列。型: VARCHAR
`<pattern>`	区切り文字として使用される正規表現パターン。型: VARCHAR
`<max_limit>`	オプションパラメータ。返される配列の要素数の最大値を制限します。型: INT

戻り値

ARRAY型を返します。正規表現によって分割された文字列の配列を表します。

分割ルール:

正規表現パターンを使用して分割ポイントをマッチングします
標準的な正規表現構文をサポートします
空文字列パターンの場合、文字列を個別の文字に分割します
パターンが何にもマッチしない場合、元の文字列を含む単一要素配列を返します
max_limitは結果配列の最大長を制限します

特殊ケース:

いずれかのパラメータがNULLの場合、NULLを返します
文字列が空の場合、空文字列を含む単一要素配列を返します
正規表現が空文字列の場合、文字単位で分割します
max_limitが0または負の値の場合、制限は適用されません
連続するマッチは空文字列要素を生成します

例

空パターンは文字単位で分割します

SELECT SPLIT_BY_REGEXP('abcde', '');

+------------------------------+
| SPLIT_BY_REGEXP('abcde', '') |
+------------------------------+
| ["a", "b", "c", "d", "e"]    |
+------------------------------+

数字パターン分割

SELECT SPLIT_BY_REGEXP('a12bc23de345f', '\\d+');

+-----------------------------------------+
| SPLIT_BY_REGEXP('a12bc23de345f', '\d+') |
+-----------------------------------------+
| ["a", "bc", "de", "f"]                  |
+-----------------------------------------+

NULL値の処理

SELECT SPLIT_BY_REGEXP(NULL, '\\d+'), SPLIT_BY_REGEXP('test', NULL);

+--------------------------------+--------------------------------+
| SPLIT_BY_REGEXP(NULL, '\d+')   | SPLIT_BY_REGEXP('test', NULL)  |
+--------------------------------+--------------------------------+
| NULL                           | NULL                           |
+--------------------------------+--------------------------------+

空文字列の処理

SELECT SPLIT_BY_REGEXP('', ','), SPLIT_BY_REGEXP('hello', 'xyz');

+---------------------------+-------------------------------+
| SPLIT_BY_REGEXP('', ',')  | SPLIT_BY_REGEXP('hello', 'xyz') |
+---------------------------+-------------------------------+
| [""]                      | ["hello"]                     |
+---------------------------+-------------------------------+

maximum limit パラメータの使用

SELECT SPLIT_BY_REGEXP('a,b,c,d,e', ',', 3), SPLIT_BY_REGEXP('1-2-3-4-5', '-', 2);

+--------------------------------------+--------------------------------------+
| SPLIT_BY_REGEXP('a,b,c,d,e', ',', 3) | SPLIT_BY_REGEXP('1-2-3-4-5', '-', 2) |
+--------------------------------------+--------------------------------------+
| ["a", "b", "c,d,e"]                  | ["1", "2-3-4-5"]                    |
+--------------------------------------+--------------------------------------+

空白文字パターン

SELECT SPLIT_BY_REGEXP('hello world  test', '\\s+'), SPLIT_BY_REGEXP('a\tb\nc\rd', '\\s');

+------------------------------------------+------------------------------------+
| SPLIT_BY_REGEXP('hello world  test', '\s+') | SPLIT_BY_REGEXP('a\tb\nc\rd', '\s') |
+------------------------------------------+------------------------------------+
| ["hello", "world", "test"]               | ["a", "b", "c", "d"]               |
+------------------------------------------+------------------------------------+

特殊文字とエスケープ

SELECT SPLIT_BY_REGEXP('a.b.c.d', '\\.'), SPLIT_BY_REGEXP('x(y)z[w]', '[\\(\\)\\[\\]]');

+----------------------------------+--------------------------------------------+
| SPLIT_BY_REGEXP('a.b.c.d', '\.') | SPLIT_BY_REGEXP('x(y)z[w]', '[\(\)\[\]]') |
+----------------------------------+--------------------------------------------+
| ["a", "b", "c", "d"]             | ["x", "y", "z", "w"]                   |
+----------------------------------+--------------------------------------------+

単語境界と複雑なパターン

SELECT SPLIT_BY_REGEXP('TheQuickBrownFox', '[A-Z]'), SPLIT_BY_REGEXP('user@example.com', '@|\\.');

+------------------------------------------+-------------------------------------------+
| SPLIT_BY_REGEXP('TheQuickBrownFox', '[A-Z]') | SPLIT_BY_REGEXP('user@example.com', '@|\.') |
+------------------------------------------+-------------------------------------------+
| ["", "he", "uick", "rown", "ox"]         | ["user", "example", "com"]                |
+------------------------------------------+-------------------------------------------+

UTF-8マルチバイト文字

SELECT SPLIT_BY_REGEXP('ṭṛì→ḍḍumai→hello', '→'), SPLIT_BY_REGEXP('αβγδε', '[βδ]');

+------------------------------------------+----------------------------------+
| SPLIT_BY_REGEXP('ṭṛì→ḍḍumai→hello', '→') | SPLIT_BY_REGEXP('αβγδε', '[βδ]') |
+------------------------------------------+----------------------------------+
| ["ṭṛì", "ḍḍumai", "hello"]               | ["α", "γ", "ε"]                  |
+------------------------------------------+----------------------------------+

連続する一致と空の要素

SELECT SPLIT_BY_REGEXP('a,,b,c', ','), SPLIT_BY_REGEXP('123abc456def', '[a-z]+');

+-------------------------------+---------------------------------------+
| SPLIT_BY_REGEXP('a,,b,c', ',') | SPLIT_BY_REGEXP('123abc456def', '[a-z]+') |
+-------------------------------+---------------------------------------+
| ["a", "", "b", "c"]           | ["123", "456", ""]                    |
+-------------------------------+---------------------------------------+

キーワード

SPLIT_BY_REGEXP, SPLIT, REGEXP, REGEXP_SPLIT_TO_ARRAY

説明​

構文​

パラメータ​

戻り値​

例​

キーワード​

説明

構文

パラメータ

戻り値

例

キーワード