ETL – extract, transform, load. Это процесс получения (извлечения), преобразования и сохранения (загрузки) данных.
Аббревиатура отражает последовательность работы с данными. В последнее время с развитием облачных сервисов стала популярна модель ELT, в которой происходит сохранение сырых и необработанных данных, а их преобразование и обработка выполняется по мере необходимости.
Получение данных из источника
Частью этого процесса является проверка данных на соответствие требованиям и фильтрация неподходящих данных.
Преобразование данных
Это процесс изменения и форматирования данных с целью сделать их хранение и дальнейшую работу с ними более удобными и дешевыми.
Преобразование может включать:
- объединение данных из разных источников
- очистку данных
- приведение к единому формату
- стандартизация (приведение к единому диапазону значений)
- дедупликация
- агрегирование
- создание новых признаков
- и т.д.
Загрузка данных
Сохранение обработанных данных в файлы, базу данных, хранилище.
На этом этапе может быть определена частота сохранения данных, объем сохраняемых данных и т.д.