Разведывательный анализ данных. Пример использования кластерного анализа STATISTICA в автостраховании. Факторный анализ как метод редукции данных

1. Понятие интеллектуального анализа данных. Методы Data Mining.

Ответ: Интеллектуальный анализ данных (англ. Data Mining) - выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

2. Понятие разведочного анализа данных. В чем отличие процедуры Data Mining от методов классического статистического анализа данных?

Ответ: Разведочных анализ данных (РАД) применяется для нахождения систематических связей между переменными в ситуациях, когда отсутствуют (или имеются недостаточные) априорные представления о природе этих связей

Традиционные методы анализа данных в основном ориентированы на проверку заранее сформулированных гипотез и на "грубый" разведочный анализ, в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей.

3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.

Ответ: С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

Средства Statistica для проведения графического разведочного анализа: категоризованные радиальные диаграммы, гистограммы (2D и 3D).

Ответ: Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

Ответ: Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

Ответ: Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.

Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации.

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

Ответ: Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков. Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

Ответ: + Наглядность и простота.

- Методы дают приближенные значения.

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

Ответ: Статистические методы, нейронные сети.

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

Ответ: Распределение x 2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.

- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

Ответ: Основные статистические характеристики количественных переменных:

математическое ожидание (средний объем производства среди предприятий)

медиана

среднее квадратичное отклонение (Квадратный корень из дисперсии)

дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)

коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)

коэффициента эксцесса (близость к нормальному распределению)

минимальное выборочное значение, максимальное выборочное значение,

разброс

Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).

Качественные:

Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)

Литература

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. - М.: "Финансы и статистика", 1983. - 471 с.

2. Боровиков В.П. Statistica. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. - СПб.: Питер, 2003. - 688 с.

3. Боровиков В.П., Боровиков И.П. Statistica - Статистический анализ и обработка данных в среде Windows. - М.: "Филин", 1997. - 608 с.

4. Электронный учебник StatSoft по анализу данных.

STATISTICA предлагает широкий выбор методов разведочного статистического анализа. Система может вычислить практически все описательные статистики, включая медиану, моду, квартили, определенные пользователем процентили, средние и стандартные отклонения, доверительные интервалы для среднего, коэффициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие описательные статистики. Возможен выбор критериев для тестирования нормальности распределения (критерий Колмогорова-Смирнова, Лилиефорса, Шапиро-Уилкса). Широкий выбор графиков помогает проведению разведочного анализа.

2. Корреляции.

Этот раздел включает большое количество средств, позволяющих исследовать зависимости между переменными. Возможно вычисление практически всех общих мер зависимости, включая коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмена, Тау (Ь,с) Кендалла, Гамма, коэффициент сопряженности признаков С и многие другие..

Корреляционные матрицы могут быть вычислены и для данных с пропусками, используя специальные методы обработки пропущенных значений.

Специальные графические возможности позволяют выбрать отдельные точки на диаграмме рассеяния и оценить их вклад в регрессионную кривую или любую другую кривую, подогнанную к данным.

3. t - критерии (и другие критерии для групповых различий).

Процедуры позволяют вычислить t-критерии для зависимых и независимых выборок, а также статистика Хоттелинга (см. также ANOVA/MANOVA).

4. Таблицы частот и таблицы кросстабуляций.

В модуле содержится обширный набор процедур, обеспечивающих табулирование непрерывных, категориальных, дихотомических переменных, переменных, полученных в результате многовариативных опросов. Вычисляются как кумулятивные, так и относительные частоты. Доступны тесты для кросстабулированных частот. Вычисляются статистики Пирсона, максимального правдоподобия, Иегс-коррекция, хи-квадрат, статистики Фишера, Макнемера и многие другие.

Модуль «Множественная регрессия»

Модуль «Множественная регрессия» включает в себя исчерпывающий набор средств множественной линейной и фиксированной нелинейной (в частности, полиномиальной, экспоненциальной, логарифмической и др.) регрессии, включая пошаговые, иерархические и другие методы, а также ридж-регрессию.

Система STATISTICA позволяет вычислить всесторонний набор статистик и расширенной диагностики, включая полную регрессионную таблицу, частные и частичные корреляции и ковариации для регрессионных весов, матрицы прогонки, статистику Дарбина-Ватсона, расстояния Махаланобиса и Кука, удаленные остатки и многие другие. Анализ остатков и выбросов может быть проведен при помощи широкого набора графиков, включая разнообразные точечные графики, графики частичных корреляций и многие другие. Система прогноза позволяет пользователю выполнять анализ "что - если". Допускаются чрезвычайно большие регрессионные задачи (до 300 переменных в процедуре разведочной регрессии). STATISTICA также содержит «Модуль нелинейного оценивания», с помощью которого могут быть оценены практически любые определенные пользователем нелинейные модели, включая логит, пробит регрессию и др.

Модуль «Дисперсионный анализ». Общий ANOVA/MANOVA модуль

ANOVA/MANOVA модуль представляет собой набор процедур общего одномерного и многомерного дисперсионного и ковариационного анализа.

В модуле представлен самый широкий выбор статистических процедур для проверки основных предположений дисперсионного анализа, в частности, критерии Бартлетта, Кохрана, Хартли, Бокса и других.

Модуль «Дискриминантный анализ»

Методы дискриминантного анализа позволяют построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем из соображений ущерба, который он понесет из-за ошибок классификации.

Модуль дискриминантного анализа системы STATISTICA содержит полный набор процедур для множественного пошагового функционального дискриминантного анализа. STATISTICA позволяет выполнять пошаговый анализ, как вперед, так и назад, а также внутри определенного пользователем блока переменных в модели.

Модуль «Непараметрическая статистика и подгонка распределений»

Модуль содержит обширный набор непараметрических критериев согласия, в частности, критерий Колмогорова-Смирнова, ранговые критерии Манна-Уитни, Валь-да-Вольфовица, Вилкоксона и многие другие.

Все реализованные ранговые критерии доступны в случае совпадающих рангов и используют поправки для малых выборок.

Статистические процедуры модуля позволяют пользователю легко сравнить распределение наблюдаемых величин с большим количеством различных теоретических распределений. Вы можете подогнать к данным нормальное, равномерное, линейное, экспоненциальное, Гамма, логнормальное, хи-квадрат, Вейбулла, Гомпертца, биномиальное, Пуассоновское, геометрическое распределения, распределение Бернулли. Точность подгонки оценивается с помощью критерия хи-квадрат или одновыборочного критерия Колмогорова-Смирнова (параметры подгонки могут контролироваться); также поддерживаются тесты Лиллифорса и Шапиро-Уилкса.

Модуль «Факторный анализ»

Модуль факторного анализа содержит широкий набор методов и опций, снабжающих пользователя исчерпывающими средствами факторного анализа.

Он, в частности, включает в себя метод главных компонент, метод минимальных остатков, метод максимального правдоподобия и др. с расширенной диагностикой и чрезвычайно широким набором аналитических и разведочных графиков. Модуль может выполнять вычисление главных компонент общего и иерархического факторного анализа с массивом, содержащим до 300 переменных. Пространство общих факторов может быть выведено на график и просмотрено либо "ломтик за ломтиком", либо на 2- или 3-мерных диаграммах рассеяния с помеченными переменными-точками.

После того как решение определено, пользователь может пересчитать корреляционную матрицу от соответствующего числа факторов для того, чтобы оценить качество построенной модели.

Кроме того, STATISTICA содержит модуль «Многомерное шкалирование», модуль «Анализ надежности», модуль «Кластерный анализ», модуль «Лог-линейный анализ», модуль «Нелинейное оценивание», модуль «Каноническая корреляция», модуль «Анализ длительностей жизни», модуль «Анализ временных рядов и прогнозирование» и другие.

Численные результаты статистического анализа в системе STATISTICA выводятся в виде специальных электронных таблиц, которые называются таблицами вывода результатов - ScroHsheets ™. Таблицы Scrollsheet могут содержать любую информацию (как численную, так и текстовую), от короткой строчки до мегабайтов результатов. В системе STATISTICA эта информация выводится в виде последовательности (очереди), которая состоит из набора таблиц Scrollsheet и графиков.

STATISTICA содержит большое количество инструментов для удобного просмотра результатов статистического анализа и их визуализации. Они включают в себя стандартные операции по редактированию таблицы (включая операции над блоками значений, Drag-and-Drop - "Перетащить и опустить", автозаполнение блоков и др.), операции удобного просмотра (подвижные границы столбцов, разделение прокрутки в таблице и др.), доступ к основным статистикам и графическим возможностям системы STATISTICA. При выводе целого ряда результатов (например, корреляционной матрицы) STATISTICA отмечает значимые коэффициенты корреляции цветом. Пользователь так же имеет возможность выделить при помощи цвета необходимые значения в таблице Scrollsheet.

Если пользователю необходимо провести детальный статистический анализ промежуточных результатов, то можно сохранить таблицу Scrollsheet в формате файла данных STATISTICA и далее работать с ним, как с обычными данными.

Кроме вывода результатов анализа в виде отдельных окон с графиками и таблицами Scrollsheet на рабочем пространстве системы STATISTICA, в системе имеется возможность создания отчета, в окно которого может быть выведена вся эта информация. Отчет - это документ (в формате RTF), который может содержать любую текстовую или графическую информацию. В STATISTICA имеется возможность автоматического создания отчета, так называемого автоотчета. При этом любая таблица Scrollsheet или график могут автоматически быть направлены в отчет.

Разведочный анализ данных (РАД; Exploratory data analysis) употребляется, когда, с одной стороны, у исследователя имеется таблица многомерных данных, а с другой стороны, априорная информация о физическом (причинном) механизме генерации этих данных отсутствует или неполна. В этой ситуации РАД может оказать помощь в компактном и понятном исследователю описании структуры данных (например, в форме визуального представления этой структуры), отталкиваясь от которого он уже может «прицельно» поставить вопрос о более детальном исследовании данных с помощью того или иного раздела статистического анализа, обоснования полученной структуры данных с помощью аппарата проверки статистических гипотез, а также, возможно, сделать некоторые заключения и о причинной модели данных. Этот этап называется «подтверждающим анализом данных» (confirmatory data analysis). Иногда выявление структуры данных с помощью РАД может оказаться и завершающим этапом анализа. С другой стороны, ряд методов РАД можно рассматривать и как методы подготовки данных для последующей статистической обработки без какого-либо изучения структуры данных, которое предполагается осуществить на последующих этапах.

В этом случае этап РАД играет роль некоторого этапа перекодировки и преобразования данных (путем, например, сокращения размерности) в удобную для последующего анализа форму. В любом случае, с какой бы целью ни применялись методы РАД, основная задача - переход к компактному описанию данных при возможно более полном сохранении существенных аспектов информации, содержащихся в исходных данных. Важно также, чтобы описание было понятным для пользователя. Впервые термин «разведочный анализ данных» был введен Дж. Тьюки в 1962 г.

Модели структуры многомерных данных. Пусть данные заданы в виде матрицы данных. Объекты можно представить в виде точек в многомерном (р-мерном) пространстве. Для описания структуры этого множества точек в РАД используется одна из следующих статистических моделей:

а) модель облака точек примерно эллипсоидальной конфигурации;

б) кластерная модель, т. е. совокупность нескольких «облаков» точек, достаточно далеко отстоящих друг от друга;

в) модель «засорения» (компактное облако точек и при этом присутствуют далекие выбросы);

г) модель носителя точек как многообразия (линейного или нелинейного) более низкой размерности, чем исходное; типичным примером является выборка из вырожденного распределения;

д) дискриминантная модель, когда точки разделены некоторым образом на несколько групп и дана информация о их принадлежности к той или иной группе.

В рамках модели можно рассматривать и регрессионную модель, когда соответствующее многообразие допускает функциональное представление , где - две группы переменных из исходного набора (переменные из носят тогда название прогнозируемых переменных, а из - предсказывающих переменных); - ошибка предсказания.

Разумеется, реальные данные обычно лишь приближенно могут следовать этим моделям, более того, структура данных может не подходить ни под одну из указанных в описании моделей даже приближенно.

Модели описания структуры зависимостей. В пространстве переменных для описания структуры зависимостей между переменными часто используются следующие модели: модель независимых переменных, модель линейно зависимых переменных, древообразная модель зависимости, факторная модель для линейно зависимых переменных, кластерная модель (произвольные коэффициенты связи), иерархическая модель зависимости.

Основные методические приемы при проведении разведочного анализа данных. Способы анализа и интерпретации результатов в значительной степени зависят от выбранного метода обработки. Однако можно выделить ряд эффективных приемов и подходов к анализу результатов, которые являются наиболее общими и в значительной степени определяют специфику собственно разведочного анализа, отличают его от остальных этапов статистической обработки. Это визуализация данных и манипуляции с данными на основе графического отображения; использование аппарата активных и иллюстративных переменных; преобразование данных, облегчающее выявление структур, анализ остатков.


В книге, написанной в 1977 г. известным американским специалистом по математической статистике, изложены основы разведочного анализа данных, т.е. первичной обработки результатов наблюдений, осуществляемой посредством простейших средств - карандаша, бумаги и логарифмической линейки. На многочисленных примерах автор показывает, как представление наблюдений в наглядной форме с помощью схем, таблиц и графиков облегчает выявление закономерностей и подбор способов более глубокой статистической обработки. Изложение сопровождается многочисленными упражнениями с привлечением богатого материала из практики. Живой, образный язык облегчает понимание излагаемого материала.

Джон Тьюки. Анализ результатов наблюдений. Разведочный анализ. – М.: Мир, 1981. – 696 с.

Скачать конспект (краткое содержание) в формате или , примеры в формате

На момент публикации заметки книгу можно найти только в букинистических магазинах.

Автор подразделяет статистический анализ на два этапа: разведочный и подтверждающий. Первый этап включает преобразование данных наблюдений и способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных. На втором этапе применяются традиционные статистические методы оценки параметров и проверки гипотез. Настоящая книга посвящена разведочному анализу данных (о подтверждающем анализе см. ). Для чтения книги не требуется предварительных знаний по теории вероятностей и математической статистике.

Прим. Багузина. Учитывая год написания книги, автор сосредотачивается на наглядном представлении данных с помощью карандаша, линейки и бумаги (иногда миллиметровой). На мой взгляд, сегодня наглядное представление данных связано с ПК. Поэтому я попытался совместить оригинальные идеи автора и обработку в Excel. Мои комментарии набраны с отступом.

Глава 1. КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ»)

График имеет наибольшую ценность тогда, когда он вынуждает нас заметить то, что мы совсем не ожидали увидеть. Представление чисел в виде стебля и листьев позволяет выявить закономерности. Например, приняв основанием стебля десятки, число 35 можно отнести к стеблю 3. Лист будет равен 5. Для числа 108 стебель – 10, лист – 8.

В качестве примера я взял 100 случайных чисел, распределенных по нормальному закону со средним 10 и стандартным отклонением 3. Чтобы получить такие числа я воспользовался формулой =НОРМ.ОБР(СЛЧИС();10;3) (рис. 1). Откройте приложенный файл Excel. Нажимая F9, вы будете генерировать новый ряд случайных чисел.

Рис. 1. 100 случайных чисел

Видно, что числа в основном распределены в диапазоне от 5 до 16. Однако заметить какую-либо интересную закономерность сложно. График «стебель и листья» (рис. 2) выявляет нормальное распределение. В качестве ствола были взяты пары соседних чисел, например, 4-5. Листья отражают число значений в этом диапазоне. В нашем примере таких значений 3.

Рис. 2. График «стебель и листья»

В Excel есть две возможности, позволяющие быстро изучить частотные закономерности: функция ЧАСТОТА (рис. 3; подробнее см. ) и сводные таблицы (рис. 4; подробнее см. , раздел Группировка числовых полей ).

Рис. 3. Анализ с помощью функции массива ЧАСТОТА

Рис. 4. Анализ с помощью сводных таблиц

Представление в виде стебля с листьями (частотное представление) позволяет выявить следующие особенности данных:

  • разделение на группы;
  • несимметричное спадание к концам - один «хвост» длиннее другого;
  • неожиданно «популярные» и «непопулярные» значения;
  • относительно какого значения «центрированы» наблюдения;
  • как велик разброс данных.

Глава 2. ПРОСТЫЕ СВОДКИ ДАННЫХ – ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ

Представление чисел в виде стебля с листьями позволяет воспринять общую картину выборки. Перед нами стоит задача научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности выборок. Для этого используются сводки данных. Однако, несмотря на то, что сводки могут быть очень полезными, но они не дают всех подробностей выборки. Если этих подробностей не так много, чтобы в них запутаться, лучше всего иметь перед глазами полные данные, размещенные отчетливо удобным для нас способом. Для больших массивов данных сводки необходимы. Мы не предполагаем и не ожидаем, что они заменят полные данные. Разумеется, нередко бывает, что добавление подробностей мало что дает, но важно осознать, что иногда подробности дают многое.

Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найти, то нам наверняка понадобятся:

  • крайние значения - наибольшее и наименьшее, которые мы пометим символом «1» (в соответствии с их рангом или глубиной);
  • какое-то срединное значение.

Медиана = срединное значение.

Для ряда, представленного в виде стебля с листьями, срединное значение легко найти подсчетом вглубь от любого из концов, приписывая крайнему значению ранг «1». Таким образом, каждое значение в выборке получает свой ранг . Счет можно начинать с любого конца. Наименьший из двух получаемых таким образом рангов, которые можно приписать одному и тому же значению, мы назовем глубиной (рис. 5). Глубина крайнего значения всегда 1.

Рис. 5. Определение глубины на основе двух направлений ранжирования

глубина (или ранг) медианы = (1 + число значений)/2

Если мы хотим добавить еще два числа, чтобы образовать 5-числовую сводку, то естественно определять их подсчетом до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе, как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами (сейчас чаще используется термин квартиль ).

В свернутом виде ряд из 13 значений может выглядеть, например, так:

Пять чисел для характеристики ряда в порядке возрастания будут: –3,2; 0,1; 1,5; 3,0; 9,8 - по одному в каждой точке перегиба ряда. Пять чисел (крайние значения, сгибы, медиана), из которых состоит 5-числовая сводка, мы будем изображать в виде следующей простой схемы:

где слева мы показали количество чисел (отмечено знаком #), глубину медианы (буквой М), глубину сгибов (буквой С) и глубину крайних значений (всегда 1, больше ничем отмечать не надо).

На рис. 8 показано, как изобразить 5-числовую сводку графически. Такого типа график называется «ящик с усами».

Рис. 8. Схематическая диаграмма или ящик с усами

К сожалению, Excel стандартно строит биржевые диаграммы, основанные только на трех или четырех значениях (рис. 9; как обойти это ограничение см. ). Для построения 5-числовой сводки можно воспользоваться статистическим пакетом R (рис. 10; подробнее см. Базовые графические возможности R: диаграммы размахов ; если вы не знакомы с пакетом R, можно начать с ). Функция boxplot() в R помимо 5 чисел отражает также выбросы (о них чуть позже).

Рис. 9. Возможные типы биржевых диаграмм в Excel

Рис. 10. Ящичная диаграмма в R; для построения такого графика достаточно выполнить команду boxplot(count ~ spray, data = InsectSprays), будут загружены данные, хранящиеся в программе, и построен представленный график

При построении диаграммы «ящик с усами» мы будем придерживаться следующей простой схемы:

  • «С-ширина» = разность между значениями двух сгибов;
  • «шаг» - величина, в полтора раза большая, чем С-ширина;
  • «внутренние барьеры» находятся снаружи сгибов на расстоянии одного шага;
  • «наружные барьеры» - снаружи на один шаг дальше внутренних;
  • значения между внутренним и соседним наружным барьерами будут «внешними»;
  • значения за наружными барьерами будем называть «отскакивающими» (или выбросы);
  • «размах» = разность между крайними значениями.

Рис. 19. Вычисление скользящей медианы: (а) подробно для части данных; (б) для всей выборки

Рис. 20. Сглаженная кривая

Глава 10. ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА

Наступило время рассмотреть двухфакторный анализ - как вследствие его важности, так и потому, что он является введением в разнообразные методы исследования. В основе двухфакторной таблицы (таблицы «откликов») лежат:

  • один вид откликов;
  • два фактора - и каждый из них проявляется в каждом наблюдении.

Двухфакторная таблица остатков. Анализ «строка-плюс-столбец». На рис. 21 приведены среднемесячные значения температуры для трех мест в Аризоне.

Рис. 21. Среднемесячные температуры в трех городах Аризоны, °F

Определим медиану по каждому месту, и вычтем ее из отдельных значений (рис. 22).

Рис. 22. Значения аппроксимации (медианы) для каждого города и остатки

Теперь определим аппроксимацию (медиану) по каждой строке, и вычтем ее из значений строки (рис. 23).

Рис. 23. Значения аппроксимации (медианы) для каждого месяца и остатки

Для рис. 23 мы вводим понятие «эффект». Число –24,7 представляет собой эффект столбца, а число 19,1 - эффект строки. Эффект показывает, как проявляется фактор или множество факторов в каждой из наблюденных величин. Если проявляющаяся часть фактора больше, чем то, что остается, то легче разглядеть и понять, что происходит с данными. Число, которое было вычтено из всех без исключения данных (здесь 70,8), называем «общее». Оно есть проявление всех факторов, общих для всех данных. Таким образом, для величин на рис. 23 справедлива формула:

Это и есть схема конкретного анализа «строка-ПЛЮС-столбец». Мы возвращаемся к нашей старой уловке - попытаться найти простое частичное описание - частичное описание, которое легче воспринимается - частичное описание, вычитание которого даст нам возможность глубже взглянуть на то, что еще не было описано.

Что нового мы сможем узнать благодаря полному двухфакторному анализу? Самый большой остаток, равный 1,9, мал по сравнению с величиной изменения эффекта от пункта к пункту и от месяца к месяцу. Во Флагстаффе приблизительно на 25°F прохладнее, чем в Финиксе, в то время как в Юме на 5–6°F теплее, чем в Финиксе. Последовательность эффектов месяцев монотонно убывает от месяца к месяцу, сначала медленно, затем быстро, затем снова медленно. Это похоже на симметрию относительно октября (такую закономерность я ранее наблюдал на примере продолжительности дня; см. . – Прим. Багузина ); Мы сняли обе завесы - эффект сезона и эффект места. После этого мы смогли увидеть довольно многое из того, что ранее оставалось незамеченным.

На рис. 24 приведена двухфакторная диаграмма . Хотя основное на этом рисунке - это аппроксимация, мы не должны пренебрегать остатками. В четырех точках мы нарисовали короткие вертикальные черточки. Длины этих черточек равны величинам соответствующих остатков, так что координаты вторых концов представляют не значения аппроксимации, а

Данные = аппроксимация ПЛЮС остаток.

Рис. 24. Двухфакторная диаграмма

Заметим также, что свойство этой или любой другой двухфакторной диаграммы - «шкала лишь в одном направлении», задающими вертикальный размер, т.е. пунктирными горизонтальными линиями, проведенными по бокам картинки, и отсутствием какого-либо размера в горизонтальном направлении.

О возможностях Excel см. . Любопытно, что некоторые формулы, использованные в этой заметке, носят имя Тьюки

Дальнейшее изложение, на мой взгляд, стало совсем сложным…

), и др. Более того, появление быстрых современных компьютеров и свободного программного обеспечения (вроде R) сделало все эти требующие вычислительных ресурсов методы доступными практически для каждого исследователя. Однако такая доступность еще больше обостряет хорошо известную проблему всех статистических методов, которую на английском языке часто описывают как "rubbish in, rubbish out ", т.е. "мусор на входе - мусор на выходе". Речь здесь идет о следующем: чудес не бывает, и если мы не будем уделять должного внимания тому, как тот или иной метод работает и какие требования предъявляет к анализируемым данным, то получаемые с его помощью результаты нельзя будет воспринимать всерьез. Поэтому каждый раз исследователю следует начинать свою работу с тщательного ознакомления со свойствами полученных данных и проверки необходимых условий применимости соответствующих статистических методов. Этот начальный этап анализа называют разведочным (Exploratory Data Analysis ).

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). Два года назад в журнале Methods in Ecology and Evolution была опубликована отличная статья, в которой эти рекомендации сведены в единый протокол по выполнению РДА: Zuur A. F., Ieno E. N., Elphick C. S. (2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution 1(1): 3-14 . Несмотря на то, что статья написана для биологов (в частности, для экологов), изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. В этом и последующих сообщениях блога я приведу выдержки из работы Zuur et al. (2010) и опишу предложенный авторами РДА-протокол. Подобно тому, как это сделано в оригинальной статье, описание отдельных шагов протокола будет сопровождаться краткими рекомендациями по использованию соответствующих функций и пакетов системы R.

Предлагаемый протокол включает следующие основные элементы:

  1. Формулировка исследовательской гипотезы. Выполнение экспериментов/наблюдений для сбора данных.
  2. Разведочный анализ данных:
    • Выявление точек-выборосов
    • Проверка однородности дисперсий
    • Проверка нормальности распределения данных
    • Выявление избыточного количества нулевых значений
    • Выявление коллинеарных переменных
    • Выявление характера связи между анализируемыми переменными
    • Выявление взаимодействий между переменными-предикторами
    • Выявление пространственно-временных корреляций среди значений зависимой переменной
  3. Применение соответствующего ситуации статистического метода (модели).

Zuur et al. (2010) отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические тесты.

Рассмотрение приведенного РДА-протокола начнем с выявления точек-выбросов . Чувствительность разных статистических методов к наличию выбросов в данных неодинакова. Так, при использовании обобщенной линейной модели для анализа зависимой переменной, распределенной по закону Пуассона (например, количество случаев какого-либо заболевания в разных городах), наличие выбросов может вызвать избыточную дисперсию, что сделает модель неприменимой. В то же время при использовании непараметрического многомерного шкалирования , основанного на индексе Жаккара , все исходные данные переводятся в номинальную шкалу с двумя значениями (1/0), и наличие выбросов никак не сказывается на результат анализа. Исследователь должен четко понимать эти различия между разными методами и при необходимости выполнять проверку на наличие выборосов в данных. Дадим рабочее определение: под "выбросом" мы будем понимать наблюдение, которое "слишком" велико или "слишком" мало по сравнению с большинством других имеющихся наблюдений.

Обычно для выявления выбросов используют диаграммы размахов . В R при построении диаграмм размахов используются устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный размах, ИКР). Верхний "ус" простирается от верхней границы "ящика" до наибольшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Аналогично, нижний "ус" простирается от нижней границы "ящика" до наименьшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Наблюдения, находящиеся за пределами "усов", рассматриваются как потенциальные выбросы (Рисунок 1).

Рисунок 1. Строение диаграммы размахов.

Примеры функций из R, служащих для построения диаграмм размахов:
  • Базовая функция boxplot() (подробнее см. ).
  • Пакет ggplot2 : геометрический объект ("geom ") boxplot . Например:
    p <- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Другим очень полезным, но, к сожалению, недостаточно используемым графическим средством выявления выборосов является точечная диаграмма Кливленда . На таком графике по оси ординат откладывают порядковые номера отдельных наблюдений, а по оси абсцисс - значения этих наблюдений. Наблюдения, "значительно" выделяющиеся из основного облака точек, потенциально могут быть выбросами (Рисунок 2).

Рисунок 2. Точечная диаграмма Кливленда, изображающая данные о длине крыла у 1295 воробьев (Zuur et al. 2010) . В этом примере данные предварительно были упорядочены в соответствии с весом птиц, и поэтому облако точек имеет примерно S-образную форму.


На Рисунке 2 хорошо выделяется точка, соответствующая длине крыла 68 мм. Однако это значение длины крыла не следует рассматривать в качестве выброса, поскольку оно лишь незначительно отличается от других значений длины. Эта точка выделяется на общем фоне лишь потому, что исходные значения длины крыла были упорядочены по весу птиц. Соответственно, выброс скорее стоит искать среди значений веса (т.е. очень высокое значение длины крыла (68 мм) было отмечено у необычно мало весящего для этого воробья).

До этого момента мы называли "выбросом" наблюдение, которое "значительно" отличается от большинства других наблюдений в исследуемой совокупности. Однако более строгий подход к определению выбросов состоит в оценке того, какое влияние эти необычные наблюдения оказывают на результаты анализа. При этом следует делать различие между необычными наблюдениями для зависимых и независимых переменных (предикторов). Например, при изучении зависимости численности какого-либо биологического вида от температуры большинство значений температуры может лежать в пределах от 15 до 20 °С, и лишь одно значение может оказаться равным 25 °С. Такой план эксперимента, мягко говоря, неидеален, поскольку диапазон температур от 20 до 25 °С будет исследован неравномерно. Однако при проведении реальных полевых исследований возможность выполнить измерения для высокой температуры может представиться только однажды. Что же тогда делать с этим необычным измерением, выполненным при 25 °С? При большом объеме наблюдений подобные редкие наблюдения можно исключить из анализа. Однако при относительно небольшом объеме данных еще большее его уменьшение может быть нежелательным с точки зрения статистической значимости получаемых результатов. Если удаление необычных значений предиктора по тем или иным причинам не представляется возможным, помочь может определенное преобразование этого предиктора (например, логарифмирование).

С необычными значениями зависимой переменной "бороться" сложнее, особенно при построении регрессионных моделей. Преобразование путем, например, логарифмирования, может помочь, но поскольку зависимая переменная представляет особый интерес при построении регрессионных моделей, лучше попытаться подобрать метод анализа, который основан на распределении вероятностей , допускающем больший разброс значений для больших средних величин (например, гамма-распределение для непрерывных переменных или распределение Пуассона для дискретных количественных переменных). Такой подход позволит работать с исходными значениями зависимой переменной.

В конечном счете решение об удалении необычных значений из анализа принимает сам исследователь. При этом он должен помнить о том, что причины для возникновения таких наблюдений могут быть разными. Так, удаление выбросов, возникших из-за неудачного планирования эксперимента (см. выше пример с температурой), может быть вполне оправданным. Оправданным будет также удаление выбросов, явно возникших из-за ошибок при выполнении измерений. В то же время необычные наблюдения среди значений зависимой переменной могут потребовать более тонкого подхода, особенно если они отражают естественную вариабельность этой переменной. В этой связи важно вести подробное документирование условий, при которых происходит экспериментальная часть исследования - это может помочь интерпретировать "выбросы" в ходе анализа данных. Независимо от причин возникновения необычных наблюдений, в итоговом научном отчете (например, в статье) важно сообщить читателю как о самом факте выявления таких наблюдений, так и о принятых в их отношении мерах.