Автор работы: Пользователь скрыл имя, 25 Апреля 2012 в 00:08, доклад
Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.
Бобик Яны, 41 группа
Подготовка данных к интеллектуальному анализу данных. Очистка данных.
Интеллектуальный анализ
данных представляет собой процесс
обнаружения пригодных к
Эти закономерности и тренды можно собрать вместе и определить как модель интеллектуального анализа данных. Модели интеллектуального анализа данных могут применяться к конкретным сценариям, а именно:
Построение модели интеллектуального анализа данных является частью более масштабного процесса, в который входят все задачи, от формулировки вопросов относительно данных и создания модели для ответов на эти вопросы до развертывания модели в рабочей среде. Этот процесс можно представить как последовательность следующих шести базовых шагов.
На следующей диаграмме представлены связи между всеми шагами процесса и технологии Microsoft SQL Server, которые можно использовать для выполнения каждого шага.
Процесс, представленный на следующей диаграмме, является циклическим, то есть создание аналитической модели данных является динамическим и повторяющимся процессом. Выполнив просмотр данных, пользователь может обнаружить, что данных недостаточно для создания требуемых моделей интеллектуального анализа данных, что ведет к необходимости поиска дополнительных данных. Также может возникнуть ситуация, когда после построения нескольких моделей окажется, что они не дают адекватный ответ на поставленную задачу, и поэтому необходимо поставить задачу по-другому. Может возникнуть необходимость в обновлении уже развернутых моделей за счет новых поступивших данных. Для создания хорошей модели может понадобиться многократно повторить каждый шаг процесса.
Подготовка данных
Вторым шагом процесса
интеллектуального анализа
Данные могут находиться в разных частях компании и храниться в различных форматах или содержать такие ошибки согласования, как неверные или отсутствующие записи. Например, согласно данным, может оказаться, что клиент купил товар до того, как тот появился на рынке, или регулярно делает покупки в магазине, расположенном за 3 000 километров от дома.
Очистка данных — это не только удаление недопустимых данных или интерполяция отсутствующих значений, но и поиск в данных скрытых зависимостей, определение источников самых точных данных и подбор столбцов, которые больше всего подходят для использования в анализе. Например, следует ли использовать дату отгрузки или дату заказа? Какой фактор сильнее всего влияет на продажи — количество товара, итоговая цена или цена со скидкой? Неполные данные, ошибочные данные и входные параметры, которые выглядят как независимые, но на самом деле имеют прочную взаимосвязь, могут непредвиденным образом повлиять на результаты модели.
Поэтому перед началом построения моделей интеллектуального анализа данных следует выявить такие проблемы и определить, как их устранить.
Очистка данных
Очистка данных (data cleaning, data cleansing или scrubbing) занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных. Проблемы с качеством встречаются в отдельных наборах данных - таких, как файлы и базы данных, - например, как результат ошибок при вводе, утери информации и других загрязнений данных. Когда интеграции подлежит множество источников данных, например - в Хранилищах, интегрированных системах баз данных или глобальных информационных Интернет-системах, - необходимость в очистке данных существенно возрастает. Это происходит оттого, что источники часто содержат разрозненные данные в различном представлении. Для обеспечения доступа к точным и согласованным данным необходимо объединение различных представлений данных и исключение дублирующейся информации.
Проблемы очистки данных
Преобразование данных требуется для поддержки любых изменений в структуре, представлении или содержании данных. Эти преобразования становятся необходимы в разных ситуациях, например при изменении структуры данных, переходе на новую информационную систему или в случае, когда нужно интегрировать множественные источники данных. Как показано на Рис. 2 мы проводим четкий водораздел между проблемами с одним и со множеством источников и между проблемами со схемой и с элементами данных. Проблемы уровня схемы, разумеется, отражаются и в элементах данных; они решаются с помощью ее улучшения, трансляции и интеграции схемы данных. С другой стороны, проблемы уровня элемента данных связаны с ошибками и несоответствиями в содержимом текущих данных, незаметных на уровне схемы.Они-то и являются основной целью очистки. Рис. 2 отражает также некоторые частичные проблемы для различных случаев. Хотя этого и нет на Рис. 2, проблемы в отдельных источниках с увеличивающейся вероятностью встречаются и в случае множества источников, - и это помимо специфических проблем, характерных для таких случаев.
Рис. Классификация проблем качества данных в источниках данных
Методы очистки данных
В целом, очистка данных включает несколько этапов:
Поддержка инструментов
Сегодня на рынке существует большой выбор средств для поддержки преобразований и очистки данных, в особенности для Хранилищ данных.
Ряд средств ориентированы на специфическую область - например, на очистку данных по именам и адресам или на специфические фазы очистки - например, анализ данных или исключение дубликатов. Благодаря своей ограниченной области применения, специализированные средства обычно очень эффективны, однако для работы с широким спектром проблем преобразования и очистки они нуждаются в дополнении другими инструментами. Другие инструменты - например, средства ETL,- обеспечивают возможность сложных преобразований и большей части технологического процесса преобразования и очистки данных. Общей проблемой средств ETL являются ограниченные за счет собственных API и форматов метаданных возможности взаимодействия, усложняющие совместное использование различных средств.
1. Средства анализа и модернизации данных
Согласно классификации, средства анализа данных могут быть разделены на средства профайлинга данных и средства data mining.
MIGRATIONARCHITECT (Evoke Software) является одним из немногих коммерческих инструментов профайлинга данных. Для каждого атрибута он определяет следующие метаданные: тип данных, длину, множество элементов, дискретные значения и их процентное отношение, минимальные и максимальные значения, утраченные значения и уникальность. MIGRATIONARCHITECT также может помочь в разработке целевой схемы для миграции данных. Средства data mining - такие, как WIZRULE (WizSoft)и DATAMININGSUITE (InformationDiscovery), выводят отношения между атрибутами и их значениями и вычисляют уровень достоверности, отражающий число квалифицирующих рядов. В частности, WIZRULE может отражать три вида правил:математическую формулу, правила if-then (если-то) и правила правописания,отсеивающие неверно написанные имена, - например, "значение Edinburgh 52 раза встречается в поле Потребитель; 2 случая(ев) содержат одинаковые значения".WIZRULE также автоматически указывает на отклонения от набора обнаруженных правил как на возможные ошибки. Средства модернизации данных, например,INTEGRITY (Vality), используют обнаруженные шаблоны и правила для определения и выполнения очищающих преобразований, т.е. модернизируют унаследованные данные.В INTEGRITY элементы данных подвергаются ряду обработок - разбору, типизации,анализу шаблонов и частот. Результатом этих действий является табличное представление содержимого полей, их шаблонов и частот, в зависимости от того,какие шаблоны можно выбрать для стандартизации данных. Для определения очищающих преобразований INTEGRITY предлагает язык с набором операторов для преобразований столбцов (например, перемещения, расщепления, удаления) и рядов.Более полный список поставщиков и инструментов можно найти на соответствующих коммерческих сайтах - Data Warehouse Information Center (www.dwinfocenter.org), Data Management Review (www.dmreview.com), Data Warehousing Institute (www.dw-institute.com) (например, слияние и расщепление). INTEGRITYидентифицирует и консолидирует записи с помощью метода статистического соответствия. При вычислении оценок для упорядочивания соответствий, по которым пользователь отбирает настоящие дубликаты, используются взвешенные коэффициенты.
2. Специальные средства очистки
Специальные средства очистки обычно имеют дело с конкретными областями, - в основном это имена и адреса, - или же с исключением дубликатов. Преобразовании либо обеспечиваются заранее в форме библиотеки правил, либо в интерактивном режиме, пользователем. Преобразовании данных могут быть автоматически получены и с помощью средств согласования схемы.
3. Инструменты ETL
Многие коммерческие инструменты поддерживают процесс ETL для Хранилищ данных на комплексном уровне, например, COPYMANAGER (InformationBuilders), DATASTAGE (Informix/Ardent), EXTRACT (ETI), POWERMART (Informatica), DECISIONBASE (CA/Platinum), DATATRANSFORMATIONSERVICE (Microsoft), METASUITE (Minerva/Carleton), SAGENTSOLUTIONPLATFORM (Sagent) и WAREHOUSEADMINISTRATOR (SAS). Для единообразного управления всеми метаданными по источникам данных,целевым схемам, маппированиям, скриптам и т.д. они используют репозиторий на основе СУБД. Схемы и данные извлекаются из оперативных источников данных как через "родной" файл и шлюзы СУБД DBMS, так и через стандартные интерфейсы -например, ODBC и EDA. Преобразовании данных определяются через простой графический интерфейс. Для определения индивидуальных шагов маппирования обычно существует собственный язык правил и комплексная библиотека предопределенных функций преобразования. Эти средства поддерживают и повторное использование существующих преобразованных решений, например, внешних процедур C/C++ с помощью имеющегося в них интерфейса для их интеграции во внутреннюю библиотеку преобразований. Процесс преобразования выполняется либо системой,интерпретирующей специфические преобразования в процессе работы, либо откомпилированным кодом. Все средства на базе системы (например, COPYMANAGER, DECISIONBASE, POWERMART, DATASTAGE, WAREHOUSEADMINISTRATOR), имеют планировщик и поддерживают технологические процессы со сложными зависимостями выполнения между этапами преобразования. Технологический процесс может также помогать работе внешних средств, например - в специфических задачах очистки - например,таких, как очистка имен/адресов или исключение дубликатов.
Информация о работе Подготовка данных к интеллектуальному анализу данных. Очистка данных