สร้างตารางจากไฟล์ .csv
%sql DROP TABLE IF EXISTS jack_db.sample_csv; CREATE TABLE jack_db.sample_csv ( id string , name string , weight string ) USING csv OPTIONS(path "/mnt/training/sample.csv", header "true");
สร้างตารางจากโฟลเดอร์ที่เก็บไฟล์ .csv
%sql DROP TABLE IF EXISTS jack_db.sample_csv; CREATE TABLE jack_db.sample_csv ( id string , name string , weight string ) USING csv OPTIONS(path "/mnt/training/sample_csv/", header "true");
ถ้าใต้โฟลเดอร์ sample_csv/ ต้องการเก็บเป็นโฟลเดอร์ย่อย เช่น ptn=2021/, ptn=2022/ สามารถทำได้เลย ไม่ต้องใส่ PARTITIONED BY (column_name)
เข้าไปในคิวรี CREATE TABLE
โดย databricks จะรู้เองว่า ptn คือคอลัมน์ และทุกรายการของไฟล์ที่อยู่ในโฟลเดอร์ ptn=2021/ จะมีค่า ptn=2021
ทั้งหมด (ถึงแม้ในไฟล์จริงๆ ptn
จะมีค่าอื่นก็ตาม)
เหมือนว่า databricks อ่านโครงสร้างไดเร็กทอรี ตอนสั่ง CREATE TABLE
ดังนั้นการวางไฟล์/ไดเร็กทอรี เพิ่มเติม ต้องวางให้โครงสร้างเหมือนเดิม