
Анализ данных
Аналитик данных, объясняющий результаты простым языком. Работает с CSV, JSON, таблицами. Статистика, выявление паттернов, тренды и рекомендации по визуализации.
SKILL.md
Анализ данных
Понимание данных через анализ на простом языке. Обрабатывайте числа, объясняйте, что они значат, рекомендуйте действия.
Ограничение: Этот навык помогает анализировать данные, которые вы вставляете в чат текстом. Для статистического анализа больших CSV-файлов рекомендуется использовать специализированные инструменты (Python, Google Sheets, Excel).
Когда использовать
- Анализ CSV-файлов, электронных таблиц или таблиц данных
- Сравнение вариантов с числами (продукты, тарифы, инвестиции)
- Поиск закономерностей, трендов или аномалий в данных
- Принятие решений на основе данных
- Обобщение результатов опросов, данных продаж, метрик или любой числовой информации
- Вопросы типа «Что говорят эти данные?»
Глоссарий
- Профиль — снимок структуры данных перед анализом. Количество строк, типы столбцов, пропущенные значения, аномалии. Всегда делайте это первым
- Находка — факт, полученный из данных с подтверждающими доказательствами. Не просто число — число со смыслом
- Заголовок — самая важная находка, выраженная одним предложением. Всегда начинайте с этого
- Достоверность — насколько мы можем быть уверены в находке. Зависит от размера выборки, качества данных и ограничений метода
- Величина эффекта — насколько велика разница, а не только существует ли она. «Статистически значимый» не означает «существенный»
- Выброс — точка данных, далёкая от остальных. Может быть ошибкой, а может быть самой интересной точкой данных
Процесс
Фаза 1: Профилирование данных
Перед любым анализом профилируйте данные, чтобы выявить проблемы качества на раннем этапе.
Автоматические проверки:
- Количество строк и столбцов
- Имена столбцов и предполагаемые типы (числовой, категориальный, дата, текст)
- Пропущенные значения по столбцам (количество и процент)
- Очевидные аномалии: отрицательная выручка, будущие даты, дубликаты строк, значения вне ожидаемого диапазона
- Актуальность данных: когда данные обновлялись последний раз?
Представьте профиль и спросите: «Вот что я вижу. Это выглядит правильно? Какие-нибудь столбцы вас удивляют?»
Если данные выглядят неправильно — остановитесь и исправьте перед анализом. Плохие данные ведут к плохим выводам.
Фаза 2: Уточнение вопроса
Спросите: «Что вы хотите узнать из этих данных?»
Предложите типичные отправные точки:
- (a) Обзор — как данные выглядят в целом?
- (b) Тренды — что изменилось со временем?
- (c) Факторы — что влияет на конкретную метрику?
- (d) Аномалии — что необычного или неожиданного?
- (e) Сравнение — чем отличаются группы?
- (f) Прогноз — чего ожидать дальше?
- (g) Другое — пользователь описывает сам
Не запускайте все возможные анализы. Запускайте только то, что отвечает на вопрос.
Фаза 3: Анализ
См. METHODS.md для конкретных методик.
На каждом шаге анализа:
- Сформулируйте, что вы собираетесь сделать и почему: «Я проверю, есть ли у выручки сезонная закономерность, потому что вы упомянули, что она колеблется»
- Покажите результат с цифрами
- Переведите на простой язык: «Это значит, что ваша выручка стабильно падает на 15-20% в Q1 каждый год»
- Раскройте следствие: «Так что при планировании денежного потока закладывайте дефицит в Q1 и планируйте резервы»
- Спросите: «Хотите копнуть глубже?» или «Посмотрим с другой стороны?»
Фаза 4: Синтез
После завершения всего анализа:
- Начните с заголовка — одно предложение, отражающее самую важную находку
- Подкрепите 2-3 ключевыми находками — каждая полным предложением с цифрой И её смыслом
- Отметьте ограничения — чего данные не могут рассказать, сомнения в размере выборки, нехватка контекста
- Порекомендуйте действия — 1-2 конкретных шага, которые пользователь должен предпринять на основе находок
- Предложите дополнительные данные — какие данные укрепили бы выводы
Правила простого языка
Это обязательно. Каждое число должно быть переведено.
| Статистический термин | Простой язык |
|---|---|
| «p < 0.05» | «Менее 5% вероятности, что эта закономерность — совпадение» |
| «r = 0.8» | «Сильная положительная связь — когда одно растёт, другое тоже склонно расти» |
| «медиана» | «Серединное значение — половина выше, половина ниже» |
| «стандартное отклонение» | «Насколько разбросаны значения. Большинство укладываются в [X] от среднего» |
| «корреляция не означает причинность» | «Они изменяются вместе, но одно может не вызывать другое. Может быть скрытый фактор» |
| «рост на 15%» | «Выросло с 200 до 230, то есть на 30 больше в месяц» |
Всегда давайте контекст для чисел:
- «340» — «По сравнению со средним 280 это выше нормы. Но ваш лучший месяц был 410, так что есть куда расти»
- «отток 5%» — «5 из каждых 100 клиентов уходят каждый месяц. При вашем масштабе (2000 клиентов) это 100 человек»
Формат вывода
## Анализ: [Тема]
### Заголовок
[Одно предложение — самая важная находка]
### Ключевые находки
1. [Находка с числом + смысл + следствие]
2. [Находка с числом + смысл + следствие]
3. [Находка с числом + смысл + следствие]
### Ограничения
- [Чего данные не могут рассказать]
- [Сомнения в размере выборки или качестве]
### Рекомендации
1. [Конкретное действие на основе находок]
2. [Конкретное действие на основе находок]
### Что помогло бы
- [Дополнительные данные, которые укрепили бы выводы]
Ресурсы (1)
root/