Text/CSV/JSON
このドキュメントでは、Dorisにおけるテキストファイルフォーマットの読み書きサポートについて紹介します。
Text/CSV
-
カタログ
org.apache.hadoop.mapred.TextInputFormatフォーマットのHiveTableの読み取りをサポートしています。以下のSerDeをサポートしています:
org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDeorg.apache.hadoop.hive.serde2.OpenCSVSerde(2.1.7以降)org.apache.hadoop.hive.serde2.MultiDelimitSerDe(3.1.0以降)
-
Table Valued ファンクション
-
Import
インポート機能はText/CSVフォーマットをサポートしています。詳細はインポートドキュメントを参照してください。
-
Export
エクスポート機能はText/CSVフォーマットをサポートしています。詳細はエクスポートドキュメントを参照してください。
サポートされている圧縮フォーマット
- uncompressed
- gzip
- deflate
- bzip2
- zstd
- lz4
- snappy
- lzo
JSON
カタログ
-
org.apache.hadoop.hive.serde2.JsonSerDe(3.0.4以降) -
org.apache.hive.hcatalog.data.JsonSerDe(3.0.4以降)- プリミティブ型と複合型の両方をサポートしています。
timestamp.formatsSERDEPROPERTIESはサポートしていません。
-
org.openx.data.jsonserde.JsonSerDeのHiveTable (3.0.6以降)- プリミティブ型と複合型の両方をサポートしています。
- SERDEPROPERTIES:
ignore.malformed.jsonのみサポートされており、このJsonSerDeと同じ動作をします。他のSERDEPROPERTIESは効果がありません。 Using Arraysはサポートしていません(Text/CSVフォーマットと同様で、すべての列データが単一の配列に配置されます)。Promoting a Scalar to an Arrayはサポートしていません(スカラーを単一要素配列に昇格)。- デフォルトでは、DorisはTableスキーマを正しく認識できます。ただし、特定のパラメータのサポート不足により、自動スキーマ認識が失敗する場合があります。この場合、
read_hive_json_in_one_column = trueを設定してJSON行全体を最初の列に配置し、元のデータが完全に読み取られることを保証できます。その後、ユーザーが手動で処理できます。この機能では、最初の列のデータ型がStringである必要があります。
Import
インポート機能はJSONフォーマットをサポートしています。詳細はインポートドキュメントを参照してください。
文字セット
現在、DorisはUTF-8文字セットエンコーディングのみをサポートしています。ただし、Hive TextフォーマットTableのデータなど、一部のデータには非UTF-8エンコーディングでエンコードされたコンテンツが含まれている場合があり、これにより読み取りが失敗し、以下のエラーが発生します:
Only support csv data in utf8 codec
この場合、セッション変数を以下のように設定できます:
SET enable_text_validate_utf8 = false
これによりUTF-8エンコーディングチェックが無視され、このコンテンツを読み取ることができるようになります。このパラメータはチェックをスキップするためにのみ使用され、UTF-8以外でエンコードされたコンテンツは依然として文字化けして表示されることに注意してください。
このパラメータはバージョン3.0.4以降でサポートされています。