Исследование – первое, что необходимо выполнить с данными.
Погружение в тему
Необходимо понять, с чем имею дело. Погрузиться в содержимое данных, понять контекст и природу данных. Выяснить значение и природу каждого признака, понять его физику, химию, геометрию и бытовую сущность.
Выводы и заметки.
Общие сведения
df.describe() – оценить статистические данные по числовым признакам.
df.info() – оценить типы данных и наличие пропусков.
Оценить наличие выбросов.
Выводы и заметки.
Поиск взаимосвязей в данных
На какие группы можно разбить признаки?
Какие признаки кажутся важными, а какие нет? Почему?
Какие признаки кажутся избыточными или не имеют смысла?
Изучить распределения признаков.
Выполнить корреляционный анализ, построение корреляционной матрицы и тепловой карты.
Выполнить многофакторный и двухфакторный анализ – изучить связи между парами признаков, а также между каждым признаком и таргетом.
Точнее выявить выбросы и пропуски. Разобраться, что с ними делать – заменить, удалить?
Выводы и заметки.
Природа целевой переменной
Что она собой представляет?
Изучить распределение. Есть ли асимметрия?
Выводы и заметки.