Оптимально достоверные разбиения (ОДР)
Метод ОДР основан на поиске оптимальных границ разбиения по исследуемым показателям, достоверно разделяющих случаи одного исследуемого класса со случаями другого класса. Поиск разбиений производится по обучающей выборке путем оптимизации специального функционала качества.
Современные статистические средства позволяют исследовать разбиения с максимальным значением функционала качества F внутри одномерных и двумерных моделей, когда поиск разбиений и оптимальных границ проводится отдельно для каждого признака и для различных пар признаков соответственно.
Оценка достоверности разбиения признаков вычисляется с помощью перестановочных тестов. При этом p-значение (мера значимости) вычисляется путем создания большого числа (тысячи) случайно сгенерированных выборок (целевая переменная создается случайно), на которых автоматически проводят аналогичный поиск закономерностей. Настройка данного параметра называется "Number of runs" (Рис. 1).
Если число случайных таблиц, на которых функционал качества равен или превышает значение функционала на обучающей выборке, меньше заданного числа, то считается, что закономерности, найденные для обучающей выборки, не случайны.
Для одномерных закономерностей вычисляется одно p-значение, для двумерных – два p-значения, оценивающих значимость вклада каждой из двух переменных.
В дальнейшем анализе участвуют наиболее информативные признаки, обеспечивающие статистически отделение одной группы от другой. Для запуска метода необходимо настроить его работу и нажать на кнопку "Запустить анализ ОДР" (Рис. 1).
После того, как метод отработает откроется результат в виде одномерных и двумерных диаграмм.
Работа с одномерными диаграммами
Окно для работы с диаграммами разделено на две области – левую и правую.
В левой области находится диаграмма, снизу которой расположена текущая информация по отображенным на данный момент данным. Панель информации показывает отображенное/фактическое количество объектов, процентную долю объектов в каждом из квадрантов и p-уровень значимости.
В правой части окна расположены инструменты работы с диаграммой. Для одномерной диаграммы правая часть состоит из четырех блоков, расположенных вертикально (Рис. 3).
Первый блок работы с данными состоит из левой части, в которой отображается количество показателей и объектов, и правой, в которой находятся переключатели для работы с объектами и для работы с показателями.
Второй блок работы с данными позволяет использовать логарифмическую шкалу для отображения значений объектов по осям X и Y.
Третий блок работы с данными предназначен для настройки добавления рисунков в отчет. Добавлять рисунки в отчет можно двумя способами: автоматическим добавлением и ручным добавлением рисунков в отчет.
Четвертый блок работы с данными предназначен для обновления данных диаграммы в соответствии с выбранными показателями по оси X и по оси Y. Показатели находятся в таблице, где также отображен столбец со значениями по F-тесту. Для того чтобы диаграмма обновилась, необходимо выбрать левой кнопкой мыши в таблице сначала один показатель, затем другой. Порядок выбора может быть любым.
Работа с объектами
Для работы с объектами необходимо нажать на переключатель "Работа с объектами", после чего отобразится таблица с данными по всем объектам в выборке. Чтобы найти конкретный объект на диаграмме, необходимо щелкнуть по названию объекта в таблице, после чего данный объект будет обведен черным кружком на диаграмме (Рис. 4).
При необходимости, названия объектов можно отобразить на диаграмме. Для этого в таблице, напротив названия объекта нужно поставить галочку в таблице с названиями объектов и включить переключатель "Отображать названия объектов" (Рис. 5).
Работа с показателями
В диаграммах можно изменить тип шкалы для значений объектов и границ. Отображение шкалы представлено в одном из двух типов:
- Логарифм десятичный;
- Логарифм натуральный.
Автоматическое добавление рисунков в отчет
По диаграммам DMA можно создать отчет, в который можно включить рисунки диаграмм. Рисунок создается путем копирования его с диаграммы. Поскольку в одномерных диаграммах ось Y не несет дополнительной информации в виде границы, то она нужна только для целей формирования двумерной плоскости, чтобы объекты по оси X не были распределены в одну линию, так как это лишает дополнительной наглядности при обозрении показателей. Таким образом, в одномерной диаграмме решающее значение имеет ось X.
Для автоматического добавления рисунков следует выбрать только показатель по оси Y (Рис. 6), который становится парой для показателя X. Показатель X берется из таблицы показателей, начиная с самого первого, после автоматической сортировки по столбцу F (Рис 7-4). Количество необходимых для формирования рисунков показателей, указывается в счетчике справа (Рис. 6).
На рисунке 7 для оси Y был выбран показатель "q23" (Рис. 7-1), а указанное количество показателей равно 5 (Рис. 7-2). В этом случае получилось пять пар показателей для формирования пяти рисунков диаграмм, которые копируются и вносятся в окно формирования отчета (Рис. 7-3).
Ручное добавление рисунков в отчет
При ручном добавлении рисунков, выбирается конкретная пара показателей по оси X (Рис. 8-1) и по оси Y (Рис. 8-2). После выбора пары, необходимо нажать на кнопку со знаком плюс, после чего выбранная пара добавляется в панель формирования отчета. Число после кнопки, показывает количество уже добавленных рисунков (Рис. 8).
Работа с двумерными диаграммами
Переключиться на двумерную диаграмму можно нажав "Режим диаграммы" > "Двумерная диаграмма".
Окно двумерной диаграммы так же, как и одномерной разделено на две области – левую и правую. В левой части находится диаграмма, а в правой инструменты работы с диаграммой. В отличие от одномерной диаграммы, в двумерной, правая часть состоит из пяти блоков (Рис. 9).
Первый блок такой же, как и в одномерной диаграмме. Содержит информацию о количестве объектов и показателей и переключатели для работы с объектами и работы с показателями. Работа с объектами и показателями реализована одинаково как для одномерных, так и для двумерных диаграмм.
Второй блок работы с данными позволяет использовать логарифмическую шкалу для отображения значений объектов по осям X и Y.
Третий блок содержит инструмент добавления рисунков в отчет для двумерной диаграммы. Поскольку пары показателей в двумерной диаграмме зафиксированы между собой, это дает более простой механизм добавления рисунков. Для этого достаточно выбрать в счетчике количество добавляемых автоматически рисунков (Рис. 10-1). Отсчет пар показателей, которые формируют рисунок начинается с самого верха таблицы (Рис. 10-2). Следует обратить внимание на то, что перед добавлением рисунков, показатели сортируются по параметру F. Это сделано для того, что чем выше этот показатель, тем более значима пара этих показателей и именно эти пары чаще всего приходится включать в отчеты. Тем не менее существует и ручное добавление рисунков в отчет. Для этого нужно просто поставить галочку напротив любой пары показателей (Рис. 10-3).
На рисунке 10 показано, что выбрано четыре рисунка автоматически (Рис. 10-2) и четыре – вручную (Рис. 10-3). Следует сказать, что отметить галочкой можно сразу все показатели, а значит и добавить в отчет все рисунки, которые формируют эти пары показателей на диаграмме. Для этого нужно щелкнуть левой кнопкой мыши по заголовку первого столбца таблицы с названием "v". Для снятия всех галочек нужно щелкнуть правой кнопкой мыши по этому заголовку.
Четвертый блок содержит инструмент быстрого поиска пар показателей в таблице, так как их бывает очень много. Для того, чтобы найти нужный показатель, необходимо начать вводить порядковый номер этого показателя в раскрывающемся списке. Поскольку список выполняет автофильтрацию вводимых символов, то каждый последующий введенный символ отбрасывает все пары, которые не совпадают с введенными символами, помогая тем самым быстро найти нужную пару (Рис. 11).
На рисунке 11 первым символом для фильтрации было введено число 5. Таким образом все названия пар, которые не начинаются на число 5 были отброшены. Если продолжать вводить все новые и новые символы, то в конце концов останется только одна, нужная пользователю пара показателей, которую и нужно выбрать в списке. После того, как нужная пара была найдена в списке, необходимо нажать на кнопку "ОК".
Пятый блок содержит таблицу с зафиксированными парами показателей (Рис. 12-1) для отображения этих показателей в диаграмме (Рис. 12-2).
Инструменты диаграмм
В окне просмотра диаграмм имеются также и другие инструменты для работы с ними:
1. Создание отчета;
2. Сохранение диаграммы в файл;
3. Создание рисунков для презентации;
4. Создание статьи;
5. Создание предиктивной модели.
Отчет, формируемый в процессе работы с диаграммами, представляет собой сохранение определенных метрик и результатов, которые были созданы экосистемой анализа данных компании Азфорус. Отчеты для одномерных и двумерных диаграмм отличаются.