Databricks job

Run with different parameters

To re-run the job and filter baby names for a different year:

  1. Click Blue Down Caret next to Run Now and select Run Now with Different Parameters or click Run Now with Different Parameters in the Active Runs table.
  2. In the Value field, enter 2015.
  3. Click Run.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("dbfs:/FileStore/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").rdd.map(lambda row : row[0]).collect()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))

การรับ-ส่งข้อมูลระหว่าง task

task ฝั่งส่งข้อมูล (task ที่รันก่อน)

dbutils.jobs.taskValues.set(key   = "my-key", \
                            value = 5)

dbutils.jobs.taskValues.set(key   = "my-other-key", \
                            value = "my other value")

task ฝั่งรับข้อมูล (task ที่รันทีหลัง)

dbutils.jobs.taskValues.get(taskKey    = "my-task", \
                            key        = "my-key", \
                            default    = 7, \
                            debugValue = 42)

โดย taskKey คือชื่อของ task ก่อนหน้าที่ส่งข้อมูลมาให้