Data Science ML

EDA – исследовательский анализ данных, основные принципы

Исследование – первое, что необходимо выполнить с данными.

Погружение в тему

Необходимо понять, с чем имею дело. Погрузиться в содержимое данных, понять контекст и природу данных. Выяснить значение и природу каждого признака, понять его физику, химию, геометрию и бытовую сущность.

Выводы и заметки.

Общие сведения

df.describe() – оценить статистические данные по числовым признакам.

df.info() – оценить типы данных и наличие пропусков.

Оценить наличие выбросов.

Выводы и заметки.

Поиск взаимосвязей в данных

На какие группы можно разбить признаки?

Какие признаки кажутся важными, а какие нет? Почему?

Какие признаки кажутся избыточными или не имеют смысла?

Изучить распределения признаков.

Выполнить корреляционный анализ, построение корреляционной матрицы и тепловой карты.

Выполнить многофакторный и двухфакторный анализ – изучить связи между парами признаков, а также между каждым признаком и таргетом.

Точнее выявить выбросы и пропуски. Разобраться, что с ними делать – заменить, удалить?

Выводы и заметки.

Природа целевой переменной

Что она собой представляет?

Изучить распределение. Есть ли асимметрия?

Выводы и заметки.

Tags
Вставить формулу как
Блок
Строка
Дополнительные настройки
Цвет формулы
Цвет текста
#333333
Используйте LaTeX для набора формулы
Предпросмотр
\({}\)
Формула не набрана
Вставить