Работа с ETL-блоками


ETL-блоки – это инструмент, позволяющий трансформировать и обрабатывать данные, используя готовые блоки скриптов.

Каждый ETL-блок – это:

  • скрипт, который содержит функцию определения списка полей объекта и функцию сборки данных блока (по аналогии с after_load/after_all-функциями из ETL-редактора), и скрипт определения;

  • список настраиваемых параметров, которые пользователь должен указать на странице редактирования модели при помещении данного ETL-блока на схему модели.

Доступные ETL-блоки:

  • «Вычисляемые поля» – блок предназначен для добавления вычисляемых полей к любой части модели. Вычисляемое поле задается названием и выражением для вычисления значения поля. При указании выражений вычисляемых полей используется Spark SQL;

  • «Декоратор» – блок предназначен для произвольного преобразования схемы и процедуры получения данных любой части модели;

  • «Функция» – блок предназначен для реализации произвольного поведения при обработке данных модели;

  • «SQL-блок» – блок позволяет выполнить произвольное SQL-выражение над любой частью модели;

  • «Временная серия» – блок позволяет сгенерировать столбец с некоторыми периодическими временными значениями.

С подробным описанием каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке «Подробнее о блоке», указанной в окне настройки параметров ETL-блока (Рисунок «Переход по ссылке «Подробнее о блоке» в настройке блока»). Переход к окну описан в п. Добавление ETL-блока и в п. Настройка параметров ETL-блока.

Рисунок 1. Переход по ссылке «Подробнее о блоке» в настройке блока