Подготовка данных. Шаг 5: масштабирование и нормализация признаков

Масштабирование (Scaling)

Масштабирование меняет диапазон или распределение значений каждого признака отдельно.

Не путать с нормализацией! Нормализация меняет длину вектора признаков каждого объекта целиком и применяется, когда важно сохранить направления векторов и углы между ними. При этом не так важно сохранять длину векторов. Такое встречается в задачах обработки текста, изображений, в рекомендательных системах.

Масштабирование – необходимый шаг для приведения признаков к одинаковому масштабу. Если признаки имеют разный масштаб, модель неизбежно будет придавать большее значение более масштабным признакам (с большими числовыми значениями и размахом), и меньшее значение признакам с меньшим масштабом.

Важно! Перед проведением масштабирования необходимо устранить выбросы в данных или использовать специальные (робастные – устойчивые к выбросам) способы масштабирования.

Способы масштабирования:

Первые два способа – наиболее часто используемы.

стандартизация
диапазонное шкалирование
масштабирование средним

Стандартизация

Приведение значений признака к нулевому среднему и единичной дисперсии.

X = (Xi – Xmean) / sigma

Реализация

from sklearn.preprocessing import StandardScaler
import pandas as pd

scaler = StandardScaler()
X_std = scaler.fit_transform(X)

# Метод возвращает массив numpy
X_std

# Для перевода в датафрейм 
X_1 = pd.DataFrame(X_std, columns=X.columns)

Диапазонное шкалирование – minmax

Все значения признака умещаются в диапазон от 0 до 1. При этом нули остаются нулями.

X = (Xi – min(X)) / (max(X) – min(X))

Есть обобщенная формула для выбора значений диапазона [a, b]:

X = a + ((Xi – min(X)) / (max(X) – min(X))) * (b – a)

Масштабирование средним

X = (Xi – Xmean ) / (max(X) – min(X))

Нормализация

Это изменение масштаба данных таким образом, чтобы их длина (норма) стала равной единице.

Нормализация применяется к вектору признаков одного наблюдения, когда важна их относительная длина и направление вектора.

L2-нормализация

Наиболее частый вариант нормализации.

X_normalized = X / ||X||₂ = X / sqrt(X₁² + X₂² + … + X_n²)

L1-нормализация

X_normalized = X / ||X||₁ = X / (|X₁| + |X₂| + … + |X_n|)

Нормализация меняет длину вектора признаков каждого объекта целиком и применяется, когда важно сохранить направления векторов и углы между ними. При этом не так важно сохранять длину векторов. Такое встречается в задачах обработки текста, изображений, в рекомендательных системах.

Май 2026
Пн	Вт	Ср	Чт	Пт	Сб	Вс
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Масштабирование (Scaling)

Способы масштабирования:

Стандартизация

Диапазонное шкалирование – minmax

Масштабирование средним

Нормализация

L2-нормализация

L1-нормализация

Другие заметки

Полносвязная нейронная сеть. Общие принципы работы.

Формат представления данных для нейросетей. Базовый стандарт.

Оценка асимметрии и эксцесса данных

Подготовка данных. Шаг 1: работа с выбросами

Хранение ключей авторизации и других конфиденциальных данных в файле .env

Линейная регрессия