Databricks – Create Table

สร้างตารางจากไฟล์ .csv

%sql
DROP TABLE IF EXISTS jack_db.sample_csv;

CREATE TABLE jack_db.sample_csv
(
  id       string
  , name   string
  , weight string
)
USING csv
OPTIONS(path "/mnt/training/sample.csv", header "true");

สร้างตารางจากโฟลเดอร์ที่เก็บไฟล์ .csv

%sql
DROP TABLE IF EXISTS jack_db.sample_csv;

CREATE TABLE jack_db.sample_csv
(
  id       string
  , name   string
  , weight string
)
USING csv
OPTIONS(path "/mnt/training/sample_csv/", header "true");

ถ้าใต้โฟลเดอร์ sample_csv/ ต้องการเก็บเป็นโฟลเดอร์ย่อย เช่น ptn=2021/, ptn=2022/ สามารถทำได้เลย ไม่ต้องใส่ PARTITIONED BY (column_name) เข้าไปในคิวรี CREATE TABLE โดย databricks จะรู้เองว่า ptn คือคอลัมน์ และทุกรายการของไฟล์ที่อยู่ในโฟลเดอร์ ptn=2021/ จะมีค่า ptn=2021 ทั้งหมด (ถึงแม้ในไฟล์จริงๆ ptn จะมีค่าอื่นก็ตาม)

เหมือนว่า databricks อ่านโครงสร้างไดเร็กทอรี ตอนสั่ง CREATE TABLE ดังนั้นการวางไฟล์/ไดเร็กทอรี เพิ่มเติม ต้องวางให้โครงสร้างเหมือนเดิม