13 Кластерный анализ
Мы закончили проверку статистических гипотез c помощью статистичекой нулевой гипотезы (NHST). Значит ли это, что мы закончили весь анализ данных? Совсем нет! Мы рассмотрели только одну задачу – проверку гипотез – из множества.
Какие задачи мы кратко рассмотрим еще:
- Кластеризация
- Понижение размерности
- Факторный анализ
Начнем с кластеризации.
Кластеризация – это процесс объединения похожих данных (наблюдений) в группы. Это может быть полезно, например, чтобы определить, какие категории пользователей нашего сервиса выделяются, и работать с ними практически персонально (например, какие-то специальные предложения для этой группы), или выделять группы сотрудников и также делать им индивидуальные предложения, чтобы мотивировать к работе (потому что мотивация не универсальна для всех).
Кластеризация немного похожа на дисперсионный анализ по виду данных: она осмысленна тогда, когда на диаграмме рассеяния выделяются группы наблюдений.
Для изучения кластерного анализа будем использовать датасет iris
https://en.wikipedia.org/wiki/Iris_flower_data_set