Корреляционная матрица
1. Чем выше (по модулю) корреляция между фактором и целевой переменной, тем лучше. Но она не должна превышать примерно 80-90%. Иначе фактор практически повторяет целевую переменную, что крайне нежелательно. Важно также учитывать специфику задачи.
2. Чем выше корреляция между разными факторами (положительная или отрицательная – не важно), тем хуже. Надо избавляться от одного из таких факторов, так как они линейно зависимы, а это сильно портит результаты модели.
3. Чем больше линейно зависимых факторов, тем ниже ранг матрицы. Признак линейной зависимости между факторами – корреляция близка к 1 или -1.

Имеет смысл проверять корреляционные таблицы/матрицы на следующие параметры:
np.linalg.matrix_rank(A) #Ранг матрицы (должен по максимуму соответствовать числу факторов).
np.linalg.det(A) #Определитель матрицы (должен быть заметно больше нуля).
Если определитель близок к нулю, это может говорить о мультиколлинеарности некоторых факторов, даже если ранг матрицы максимален. При этом стандартная регрессионная модель может давать странные на вид результаты (коэффициенты могут быть слишком большими по модулю).
Если определитель матрицы равен 0, матрица вырождена (её столбцы сильно зависимы линейно).
Изучение спектра и числа обусловленности – позволяют избавиться от мультиколлинеарности. Это существенно повышает точность модели регрессии.
Мультиколлинеарность факторов – скрытая линейная зависимость между ними, приводящая к высокой корреляции между ними, и, как следствие, снижающая качество модели.
Методы борьбы с мультиколлинеарностью
1. Удаление факторов «на глазок».
2. Метод главных компонент для корреляционной матрицы.
3. Сингулярное разложение матрицы факторов.
4. Гребневая регрессия (Ridge)
Что делать, если есть высокая корреляция между переменными
Цель — устранить избыточность, сохранив при этом всю информацию.
| Стратегия | Принцип | Модель |
| Удаление одного признака | Устранить один из пары сильно коррелирующих признаков, оставив тот, который сильнее коррелирует с таргетом. | Все |
| Объединение признаков | Создать новый признак, который объединяет информацию из коррелирующих (например, их сумму, разность или среднее). | Все |
| Метод главных компонент (PCA) | Применить PCA, чтобы преобразовать набор коррелирующих признаков в новый набор некоррелирующих (ортогональных) признаков. | Линейные модели |
| Использование регуляризации | Применить регуляризацию (Ridge или Lasso) к линейным моделям. Lasso (L1) особенно полезна, так как она склонна обнулять коэффициенты одного из коррелирующих признаков, выполняя автоматический отбор. | Линейные модели |