В Системе предоставляются возможности по управлению процессами трансформации данных модели с помощью редактора ETL, где кастомизация ETL-процессов выполняется с помощью python-скриптов.
Редактор ETL позволяет:
-
обеспечить необходимое качество данных для их дальнейшего использования. Примеры создания функций для модификации данных описаны на форуме в статье «Обработка типовых кейсов low-quality данных в редакторе ETL» (https://community.analyticworkspace.ru/t/obrabotka-tipovyh-kejsov-low-quality-dannyh-v-redaktore-etl/42), где рассмотрены кейсы удаления дубликатов и символов, замена символов, обрезка строк и разделение данных по столбцам;
-
выполнять загрузку данных напрямую из удаленных источников, а также передавать web-сервисам данные для записи, информировать через мессенджеры. Примеры описаны в статье «Работа с web-сервисами» (https://community.analyticworkspace.ru/t/rabota-s-web-servisami/63), где рассмотрены получение данных в разных форматах, создание записей в БД удаленного web-сервиса, отправка данных в чат Telegram. В частности, разобран пример – получение данных с google sheets (https://community.analyticworkspace.ru/t/poluchenie-dannyh-s-google-sheets-v-etl-s-pomoshhyu-python/111);
-
с помощью библиотеки PyMongo (драйвер MongoDB для Python) (https://pypi.org/project/pymongo/) выполнять загрузку данных из БД MongoDB.