Computer science Термины

ETL

ETL – extract, transform, load. Это процесс получения (извлечения), преобразования и сохранения (загрузки) данных.

Аббревиатура отражает последовательность работы с данными. В последнее время с развитием облачных сервисов стала популярна модель ELT, в которой происходит сохранение сырых и необработанных данных, а их преобразование и обработка выполняется по мере необходимости.

Получение данных из источника

Частью этого процесса является проверка данных на соответствие требованиям и фильтрация неподходящих данных.

Преобразование данных

Это процесс изменения и форматирования данных с целью сделать их хранение и дальнейшую работу с ними более удобными и дешевыми.

Преобразование может включать:

  • объединение данных из разных источников
  • очистку данных
  • приведение к единому формату
  • стандартизация (приведение к единому диапазону значений)
  • дедупликация
  • агрегирование
  • создание новых признаков
  • и т.д.

Загрузка данных

Сохранение обработанных данных в файлы, базу данных, хранилище.

На этом этапе может быть определена частота сохранения данных, объем сохраняемых данных и т.д.

Вставить формулу как
Блок
Строка
Дополнительные настройки
Цвет формулы
Цвет текста
#333333
Используйте LaTeX для набора формулы
Предпросмотр
\({}\)
Формула не набрана
Вставить