メインコンテンツまでスキップ
バージョン: 26.x

Console経由でのデータインポート

このガイドでは、Consoleビジュアルインターフェースを使用して、オブジェクトストレージ(AWS S3、Google Cloud Storage、Azure Blob Storage)からVeloDBにデータをインポートする手順を説明します。

前提条件

開始前に、以下を確認してください:

  • データファイルが格納されたオブジェクトストレージバケット
  • アクセス認証情報(Access Key IDとSecret Access Key)
  • アクティブなクラスターを持つVeloDB Cloudアカウント(Quick Startを参照)

サンプルデータでの試行

サンプルデータセットを使ってS3インポートを試すには、以下の認証情報を使用してください:

フィールド
AKAKIA3AUKURBS74337SNB
SKygbR1HGNvMZDTo4DNUWJx0mblpMTF+QpBCCBfxFF
Object Storage Pathhttps://velodb-import-data-us-east-1.s3.us-east-1.amazonaws.com/ssb-flat-sf1/*.parquet

このサンプルデータセットには**SSB(Star Schema Benchmark)**データが含まれています - 分析データベースで広く使用されているベンチマークです。このデータセットには、注文、顧客、サプライヤー、製品を含む42列の非正規化された販売データが約600万行含まれています。

SSBデータセットスキーマ(42列)
列グループ
Orderlo_orderkey, lo_linenumber, lo_orderdate, lo_commitdate, lo_orderpriority, lo_shippriority, lo_shipmode, lo_year, lo_month, lo_weeknum
Metricslo_quantity, lo_extendedprice, lo_discount, lo_revenue, lo_supplycost, lo_tax
Dated_datekey, d_dayofweek, d_month, d_yearmonth
Customerc_custkey, c_name, c_nation, c_region, c_city, c_mktsegment
Suppliers_suppkey, s_name, s_nation, s_region, s_city
Productp_partkey, p_name, p_brand, p_category, p_mfgr, p_color, p_type, p_size, p_container
ヒント

これは読み取り専用のサンプルデータです。以下のチュートリアル手順に従って使用できます。

ステップ1:接続

VeloDB ConsoleサイドバーのData > Importに移動し、Create newをクリックしてObject Storage S3を選択します。

ステップ 1: Connection

設定

フィールド説明
Task Nameこのインポートタスクの一意の名前(例:sales_datauser_logs
コメント*(オプション)*インポートタスクの説明
認証Access Key認証を選択
AKあなたのAccess Key ID(例:AKIAIOSFODNN7EXAMPLE
SKあなたのSecret Access Key
Object Storage PathデータへのURL(以下の形式を参照)

Object Storage Path形式

https://<bucket-name>.s3.<region>.amazonaws.com/<path>/<filename>

例:

  • 単一ファイル: https://my-bucket.s3.us-west-1.amazonaws.com/data/orders.csv
  • ワイルドカードを使用した複数ファイル: https://my-bucket.s3.us-west-1.amazonaws.com/data/*.csv
  • Parquetファイル: https://my-bucket.s3.us-west-1.amazonaws.com/warehouse/*.parquet
警告

最適なパフォーマンスのため、オブジェクトストレージバケットはVeloDBクラスターと同じリージョンにある必要があります。

Next をクリックして続行します。

ステップ 2: 受信データ

VeloDBがデータファイルを解析する方法を設定します。

ステップ 2: Incoming Data

ファイル設定

フィールド説明
File タイプファイル形式を選択: CSV、Parquet、ORC、またはJSON
File Compression自動検出または指定: GZ、BZ2、LZ4、LZO、DEFLATE、ZSTD、ZLIB
Specify Delimiterカラム区切り文字(CSVの場合は ,、TSVの場合は \t
Encloseテキストフィールドの引用文字(通常は空のまま)
Escapeエスケープ文字(通常は空のまま)
Trim Double Quotes値から引用符を削除するかどうか
File Sizeサイズ制限を設定またはUnlimitedのまま

読み込み設定

フィールド説明
Strict ModeON = エラーのある行を拒否、OFF = 不正な行をスキップ
備考

標準的なCSVファイルの場合、デフォルト設定で通常は機能します。解析エラーを避けるため、EncloseEscape は空のままにしてください。

Next をクリックして続行します。

ステップ 3: Tableの設定

データをプレビューし、対象Tableを設定します。

ステップ 3: Configure Table

データプレビュー

コンソールは以下の内容でデータのプレビューを表示します:

  • 自動検出されたカラム名(c1、c2、c3、...またはCSVヘッダー行から)
  • サンプルデータ行
  • 推定されたカラム型

データの読み込み先

オプション説明
New Table自動生成されたスキーマで新しいTableを作成
Existing Table既存のVeloDBTableに読み込み

Table設定

フィールド説明
Databaseドロップダウンから対象データベースを選択
Table Name新しいTableの名前(例: ordersuser_eventsproducts

ステップ 4: 詳細設定

Tableモデルと分散設定を設定します。

ステップ 4: Advanced Settings

Tableモデル

モデル使用例
DUPLICATE生データ、アドホッククエリ - 書き込まれたすべての行を保持イベントログ、クリックストリーム、生のトランザクション
UNIQUE更新のあるデータ - キーごとに最新の行のみを保持ユーザープロファイル、商品カタログ、ディメンションTable
AGGREGATE事前集計されたメトリクス - キーカラムで自動集計売上サマリー、時系列メトリクス、カウンター

分散設定

フィールド説明
Sorting Keyデータ順序付けのカラム - WHERE句やJOINで頻繁に使用されるカラムを選択
パーティション時間ベースのパーティション分割を有効化(時系列データに推奨)
バケット Keyノード間でのハッシュ分散用カラム
バケット Numberデータバケット数(ほとんどの場合 AUTO を推奨)
Properties追加のTableプロパティ(通常は空のまま)

適切な設定の選択

  • Tableモデル:
    • 生データの保持と柔軟なアドホッククエリにはDUPLICATE
    • レコードを更新する必要がある場合はUNIQUE(キーごとに最新を保持)
    • 事前計算されたサマリーにはAGGREGATE(ストレージ削減、高速クエリ)
  • Sorting Key: WHERE句やJOINで頻繁に使用されるカラム
  • バケット Key: 均等なデータ分散のための高カーディナリティカラム

Next をクリックして続行し、Submit をクリックしてインポートを開始します。

ステップ 5: インポートの監視

送信後、インポートリストでインポートタスクを確認できます。

ステップ 5: Import List

インポートの確認

インポートが完了したら、SQLエディターでデータを確認します:

-- Check row count
SELECT COUNT(*) FROM your_database.your_table;

-- Preview data
SELECT * FROM your_database.your_table LIMIT 10;

-- Check table schema
DESC your_database.your_table;

SSBデータのサンプルクエリ

サンプルのSSBデータセットをインポートした場合は、以下の分析クエリを試してください:

-- Total revenue by year
SELECT
lo_year,
SUM(lo_revenue) as total_revenue
FROM ssb_flat
GROUP BY lo_year
ORDER BY lo_year;

-- Top 10 customers by revenue
SELECT
c_name,
c_nation,
SUM(lo_revenue) as total_revenue
FROM ssb_flat
GROUP BY c_name, c_nation
ORDER BY total_revenue DESC
LIMIT 10;

-- Revenue by region and year
SELECT
c_region,
lo_year,
SUM(lo_revenue) as revenue,
COUNT(*) as order_count
FROM ssb_flat
GROUP BY c_region, lo_year
ORDER BY c_region, lo_year;

-- Product category performance
SELECT
p_category,
p_brand,
SUM(lo_revenue) as revenue,
AVG(lo_discount) as avg_discount
FROM ssb_flat
GROUP BY p_category, p_brand
ORDER BY revenue DESC
LIMIT 20;

トラブルシューティング

問題解決策
"Can not found files"オブジェクトストレージのパス形式と末尾のスラッシュを確認してください
"Access Denied"AK/SK認証情報とIAM権限を確認してください
Connection timeoutバケットがVeloDBと同じリージョンにあることを確認してください
Parsing errorsEncloseとEscapeフィールドは空のままにしてください
Wrong column types事前定義されたスキーマでExisting Tableを使用してください