Работа с ETL-блоками


ETL-блоки – это инструмент, позволяющий трансформировать и обрабатывать данные, используя готовые блоки скриптов.

Каждый ETL-блок – это:

  • скрипт, который содержит функцию определения списка полей объекта и функцию сборки данных блока (по аналогии с after_load/after_all-функциями из ETL-редактора), и скрипт определения;

  • список настраиваемых параметров, которые пользователь должен указать на странице редактирования модели при помещении данного ETL-блока на схему модели.

Доступные ETL-блоки:

  • «Вычисляемые поля» – блок предназначен для добавления вычисляемых полей к любой части модели. Вычисляемое поле задается названием и выражением для вычисления значения поля. При указании выражений вычисляемых полей используется Spark SQL;

  • «Декоратор» – блок предназначен для произвольного преобразования схемы и процедуры получения данных любой части модели;

  • «Функция» – блок предназначен для реализации произвольного поведения при обработке данных модели;

  • «SQL-блок» – блок позволяет выполнить произвольное SQL-выражение над любой частью модели;

  • «Временная серия» – блок позволяет сгенерировать столбец с некоторыми периодическими временными значениями;

  • «Разворот иерархии Parent-Child» – блок предназначен для преобразования таблицы с parent-child иерархией в таблицу, где уровни иерархии вынесены (развернуты) в отдельные столбцы;

  • «Прогнозирование временного ряда» – блок выполняет прогнозирование временного ряда на основе автоматически-обучаемой статистической модели;

  • «Классификация/регрессия с ML-моделью» – блок выполняет предсказание (классификацию, регрессию) для вложенной в него таблицы на основе ML-модели из внутреннего реестра ML-моделей;

  • «ML-модель в ручном режиме» – блок предназначен для опытных специалистов по ML-моделям в случае нехватки функциональности блоков «Прогнозирование временного ряда» и «Классификация/регрессия с ML-моделью»;

  • «JSON-блок» – блок позволяет преобразовать значения из JSON-поля в новые строки или столбцы. Работает со значениями полей как в виде объектов, так и массивов.

С подробным описанием каждого ETL-блока и его параметров можно ознакомиться перейдя по ссылке «Подробнее о блоке», указанной в окне настройки параметров ETL-блока (Рисунок «Переход по ссылке «Подробнее о блоке» в настройке блока»). Переход к окну описан в п. Добавление ETL-блока и в п. Настройка параметров ETL-блока.

Рисунок 1. Переход по ссылке «Подробнее о блоке» в настройке блока