メインコンテンツまでスキップ
バージョン: 4.x

Console経由でのデータインポート

このガイドでは、Consoleのビジュアルインターフェースを使用して、オブジェクトストレージ(AWS S3、Google Cloud Storage、Azure Blob Storage)からVeloDBにデータをインポートする手順を説明します。

前提条件

開始前に、以下を準備してください:

  • データファイルを含むオブジェクトストレージバケット
  • アクセス認証情報(Access Key IDとSecret Access Key)
  • アクティブなクラスターを持つVeloDB Cloudアカウント(Quick Startを参照)

サンプルデータでの試用

サンプルデータセットを使用してS3インポートを試すには、以下の認証情報を使用してください:

フィールド
AKAKIA3AUKURBS74337SNB
SKygbR1HGNvMZDTo4DNUWJx0mblpMTF+QpBCCBfxFF
Object Storage Pathhttps://velodb-import-data-us-east-1.s3.us-east-1.amazonaws.com/ssb-flat-sf1/*.parquet

このサンプルデータセットには**SSB(Star Schema Benchmark)**データが含まれています - 分析データベースで広く使用されているベンチマークです。このデータセットには、注文、顧客、サプライヤー、製品をカバーする42カラムの非正規化された売上データの約600万行が含まれています。

SSBデータセットスキーマ(42カラム)
カラムグループカラム
Orderlo_orderkey, lo_linenumber, lo_orderdate, lo_commitdate, lo_orderpriority, lo_shippriority, lo_shipmode, lo_year, lo_month, lo_weeknum
Metricslo_quantity, lo_extendedprice, lo_discount, lo_revenue, lo_supplycost, lo_tax
Dated_datekey, d_dayofweek, d_month, d_yearmonth
Customerc_custkey, c_name, c_nation, c_region, c_city, c_mktsegment
Suppliers_suppkey, s_name, s_nation, s_region, s_city
Productp_partkey, p_name, p_brand, p_category, p_mfgr, p_color, p_type, p_size, p_container
ヒント

これは読み取り専用のサンプルデータです。以下のチュートリアル手順に従って使用できます。

ステップ1: 接続

VeloDB ConsoleサイドバーのData > Importに移動し、Create newをクリックしてObject Storage S3を選択します。

ステップ 1: Connection

設定

フィールド説明
Task Nameこのインポートタスクの一意の名前(例:sales_datauser_logs
コメント(オプション) インポートタスクの説明
認証Access Key認証を選択
AKYour Access Key ID(例:AKIAIOSFODNN7EXAMPLE
SKYour Secret Access Key
Object Storage PathデータへのURL(以下の形式を参照)

Object Storage Pathの形式

https://<bucket-name>.s3.<region>.amazonaws.com/<path>/<filename>

パス形式の例(実際のバケットとファイルパスに置き換えてください):

  • 単一ファイル:https://my-bucket.s3.us-west-1.amazonaws.com/data/orders.csv
  • ワイルドカードを使用した複数ファイル:https://my-bucket.s3.us-west-1.amazonaws.com/data/*.csv
  • Parquetファイル:https://my-bucket.s3.us-west-1.amazonaws.com/warehouse/*.parquet
警告

最適なパフォーマンスのため、オブジェクトストレージバケットはVeloDBクラスターと同じリージョンに配置する必要があります。

Nextをクリックして続行します。

ステップ2:受信データ

VeloDBがデータファイルを解析する方法を設定します。

ステップ 2: Incoming Data

ファイル設定

フィールド説明
File タイプファイル形式を選択:CSV、Parquet、ORC、またはJSON
File Compression自動検出または指定:GZ、BZ2、LZ4、LZO、DEFLATE、ZSTD、ZLIB
Specify Delimiter列区切り文字(CSVの場合は,、TSVの場合は\t
Encloseテキストフィールドの引用符文字(通常は空のままにします)
Escapeエスケープ文字(通常は空のままにします)
Trim Double Quotes値から引用符を削除するかどうか
File Sizeサイズ制限を設定するか、Unlimitedのままにします

ロード設定

フィールド説明
Strict ModeON = エラーのある行を拒否、OFF = 不正な行をスキップ
備考

標準的なCSVファイルの場合、通常はデフォルト設定で動作します。解析エラーを避けるため、EncloseEscapeは空のままにしてください。

Nextをクリックして続行します。

ステップ3:Table設定

データをプレビューし、宛先Tableを設定します。

ステップ 3: Configure Table

データプレビュー

コンソールには以下の情報を含むデータのプレビューが表示されます:

  • 自動検出された列名(c1、c2、c3、...またはCSVヘッダー行から)
  • サンプルデータ行
  • 推測された列の型

データのロード先

オプション説明
New Table自動生成されたスキーマで新しいTableを作成
Existing Table既存のVeloDBTableにロード

Table設定

フィールド説明
Databaseドロップダウンからターゲットデータベースを選択
Table Name新しいTableの名前(例:ordersuser_eventsproducts

ステップ4:詳細設定

Tableモデルと分散設定を構成します。

ステップ 4: Advanced Settings

Tableモデル

モデル用途
DUPLICATE生データ、アドホッククエリ - 書き込まれたすべての行を保持イベントログ、クリックストリーム、生のトランザクション
UNIQUE更新を含むデータ - キーごとに最新の行のみを保持ユーザープロフィール、商品カタログ、ディメンションTable
AGGREGATE事前集計されたメトリクス - キー列で自動集計売上サマリー、時系列メトリクス、カウンター

分散設定

フィールド説明
Sorting Keyデータ順序付けのための列 - WHERE句やJOINで頻繁に使用される列を選択
パーティション日付/時間やその他のディメンションによるパーティショニングを有効にしてクエリパフォーマンスを向上
バケット Keyノード間でのハッシュ分散のための列(クエリ同時実行性を向上させるためtenant_idやuser_idを使用)
バケット Numberデータバケットの数(ほとんどの場合AUTOが推奨)
Properties追加のTableプロパティ(通常は空のまま)

Nextをクリックして続行し、Submitをクリックしてインポートを開始します。

ステップ5:インポートの監視

送信後、インポートリストでインポートタスクを確認できます。

ステップ 5: Import List

インポートの検証

インポートが完了したら、SQLエディターでデータを検証します:

-- Check row count
SELECT COUNT(*) FROM your_database.your_table;

-- Preview data
SELECT * FROM your_database.your_table LIMIT 10;

-- Check table schema
DESC your_database.your_table;

SSB データのサンプルクエリ

サンプル SSB データセットをインポートした場合は、以下の分析クエリを試してください:

-- Total revenue by year
SELECT
lo_year,
SUM(lo_revenue) as total_revenue
FROM ssb_flat
GROUP BY lo_year
ORDER BY lo_year;

-- Top 10 customers by revenue
SELECT
c_name,
c_nation,
SUM(lo_revenue) as total_revenue
FROM ssb_flat
GROUP BY c_name, c_nation
ORDER BY total_revenue DESC
LIMIT 10;

-- Revenue by region and year
SELECT
c_region,
lo_year,
SUM(lo_revenue) as revenue,
COUNT(*) as order_count
FROM ssb_flat
GROUP BY c_region, lo_year
ORDER BY c_region, lo_year;

-- Product category performance
SELECT
p_category,
p_brand,
SUM(lo_revenue) as revenue,
AVG(lo_discount) as avg_discount
FROM ssb_flat
GROUP BY p_category, p_brand
ORDER BY revenue DESC
LIMIT 20;

トラブルシューティング

問題解決方法
"Can not found files"オブジェクトストレージのパス形式と末尾のスラッシュを確認してください
"Access Denied"AK/SKクレデンシャルとIAMアクセス許可を確認してください
Connection timeoutバケットがVeloDBと同じリージョンにあることを確認してください
Parsing errorsEncloseフィールドとEscapeフィールドを空のままにしてください
Wrong column types事前定義されたスキーマでExisting Tableを使用してください