Подготовка данных
Проверка данных представлена четырьмя инструментами. Каждый инструмент соответствует своей вкладке на панели инструментов проверки.
Поиск пропусков
Пропуски в данных (Рис. 1) возникают по причине неполноты собранных значений каких-либо показателей. Поскольку анализ данных не может производиться с пустой ячейкой, то она заполняется числом, которое точно нигде не встречается во всей таблице, а значит может быть рассмотрено программой анализа как метка, значение которой не используется при интеллектуальном распознавании данных.
Таким числом может быть -1000, -1, -999, или любое другое, которое можно назначить вручную в настройке этого параметра. В главной таблице, ячейки с пропусками подкрашены светло-сиреневым цветом. Можно видеть, что в качестве пропуска было выбрано число -1000 (Рис. 1).
Поскольку количество пропусков может быть разным, то необходим механизм отслеживания и оповещения о случаях, когда количество пропусков слишком велико. Например, если какой-либо показатель на 80 или более процентов состоит из пропусков, очевидно, что такой показатель вряд ли может быть использован для анализа данных.
Для обеспечения механизма оповещения о большом количестве пропусков в проверке используется процентный порог. Проверка на пропуски подсчитывает количество пропусков в каждом столбце (показателе), и если количество пропусков превышает установленный порог, то такой показатель помечается как неблагонадежный.
Информация о таких показателях заносится в информационную таблицу в правой части окна, в соответствующей вкладке проверки данных. Таблица содержит в себе основные характеристики показателей, в которых количество пропусков превысило установленный порог (Рис. 2).
Если количество пропусков в столбце превысило процентный порог, то такие столбцы можно навсегда удалить из таблицы, отметив их галочкой в первом столбце информационной таблицы и нажав на кнопку "Удалить отмеченные столбцы" (Рис. 2).
Если столбцов на удаление много, то их можно отметить все сразу. Для этого нужно щелкнуть левой кнопкой мыши по заголовку первого столбца со знаком "-" (Рис. 2). Если же нужно снять все галочки на удаление, то необходимо нажать на этот же заголовок правой кнопкой мыши.
Механизм проверки на пропуски также работает и для строк таблицы.
Поиск дублированных строк
Дублированные строки появляются, когда данные в файле были скопированы несколько раз. В результате этого получаются строки на 100 % имеющие одинаковые значения. Для анализа данных такие строки должны быть в единственном экземпляре.
Выделив строку в информационной таблице дублированных строк, найденные одинаковые строки выделяются в главной таблице (Рис. 3).
Также отобразится столбец с названием DEL, задача которого удалять строки, которые были отмечены галкой. Чтобы удалить одну из выделенных строк, нужно поставить в ней галку, например, на строке № 10, затем нажать правой кнопкой мыши на название столбца "DEL" и выбрать команду "Удалить отмеченные строки".
Поиск не числовых данных
Поскольку аналитическая экосистема компании Азфорус работает только с числами, это накладывает на данные таблицы соответствующее ограничение. Тем не менее, нечисловые данные несут в себе определенную информацию, выкидывать которую из таблицы было бы неразумно.
Чтобы проверить таблицу на наличие не числовых данных необходимо нажать в правой части окна на третью вкладку с соответствующей этому действию иконкой. Если в таблице есть такие данные, они подсветятся цветом (Рис. 4).
Данные в таком столбце можно отредактировать, оцифровать, расщепить или удалить. Эти действия доступны в контекстном меню столбца (Рис. 5).
Поиск выбросов
Проверка на выбросы (аномальные значения показателей) производится по трем критериям: критерий трех сигм, критерий Диксона, критерий Граббса. До того, как начинать проверку на выбросы, нужно убедиться, что в таблице нет не числовых данных, ибо в этом случае поиск выбросов невозможен. Для того, чтобы проверить значения таблицы на выбросы, необходимо нажать на кнопку поиска выбросов, после чего будет произведен автоматический поиск выбросов по критерию трех сигм. Если выбросы обнаружены, то ячейки с выбросами подсвечиваются цветом, а в информационную таблицу заносится информация по каждому выбросу (Рис. 6). Информация по выбросам состоит из четырех характеристик:
- Номер показателя, в котором выброс обнаружен;
- Объект, у которого обнаружен выброс;
- Значение показателя получившее статус выброса;
- Вектор выброса. Вектор состоит из трех направлений:
- Выброс равен минимальному значению показателя среди всех объектов. В таблице это отображено как: v = Min.
- Выброс равен максимальному значению показателя среди всех объектов. В таблице это отображено как: v = Max.
- Выброс стремится к минимальному или максимальному значению показателя среди всех объектов. В таблице это отображено как: v → Min, v → Max.
Чтобы произвести поиск выбросов по другим критериям, нужно выбрать конкретный критерий в выпадающем списке, после чего выбросы будут найдены. Выбирать критерий следует руководствуясь их описанием ниже.
Критерий (правило) трех сигм
Этот критерий лучше всего работает с большим количеством объектов в таблице. Их должно быть не менее 50.
Критерий Диксона
Критерий Диксона работает как с большим количеством объектов, так и с малым.
Критерий Граббса
Критерий Граббса работает как с большим количеством объектов, так и с малым.
Создание целевой функции
Создание целевой функции представляет собой преобразование значений выбранного показателя на два класса. Целевая функция используется в методах классификации с учителем. Чтобы создать целевую функцию, нужно щелкнуть правой кнопкой мыши по заголовку столбца из значений которого планируется создать данную функцию. После щелчка откроется контекстное меню, в котором следует выбрать команду "Создать целевую функцию" (Рис. 5). Показатель, к которому была применена целевая функция переносится в начало таблицы. Предлагается три метода создания целевой функции:
- По среднему значению,
- По медиане,
- По выбранному значению.
Два первых метода преобразуют значения показателя автоматически. Третий метод работает вручную. Пользователь вручную указывает, какое число считать границей между первым классом и вторым. На рисунке 7, таким числом выбрано 1,4. Те объекты, значения которых ниже, либо равны 1,4 становятся первым классом, а те, значения которых больше 1,4 становятся вторым классом.
Для удобства восприятия все строки в главной таблице после создания целевой функции окрашиваются в соответствующий классу цвет.