Подготовка данных к интеллектуальному анализу данных. Очистка данных

Автор работы: Пользователь скрыл имя, 25 Апреля 2012 в 00:08, доклад

Описание

Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.

Работа состоит из  1 файл

Подготовка данных к интеллектуальному анализу данных.docx

— 90.92 Кб (Скачать документ)

Бобик Яны, 41 группа

Подготовка данных к интеллектуальному анализу  данных. Очистка данных.

Интеллектуальный анализ данных представляет собой процесс  обнаружения пригодных к использованию  сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.

Эти закономерности и тренды можно собрать вместе и определить как модель интеллектуального анализа  данных. Модели интеллектуального анализа данных могут применяться к конкретным сценариям, а именно:

  • Прогноз: оценка продаж, прогнозирование нагрузки сервера или времени простоя сервера
  • Риски и вероятности: выбор наиболее подходящих заказчиков для целевой рассылки, определение точки равновесия для рискованных сценариев, назначение вероятностей диагнозам или другим результатам
  • Рекомендации: определение продуктов, которые с высокой долей вероятности могут быть проданы вместе, создание рекомендаций
  • Определение последовательностей: анализ выбора заказчиков во время совершения покупок, прогнозирование следующего возможного события
  • Группирование: разделение заказчиков или событий на кластеры связанных элементов, анализ и прогнозирование общих черт

Построение модели интеллектуального  анализа данных является частью более  масштабного процесса, в который  входят все задачи, от формулировки вопросов относительно данных и создания модели для ответов на эти вопросы  до развертывания модели в рабочей  среде. Этот процесс можно представить как последовательность следующих шести базовых шагов.

  1. Постановка задачи
  2. Подготовка данных
  3. Просмотр данных
  4. Построение моделей
  5. Исследование и проверка моделей
  6. Развертывание и обновление моделей

На следующей диаграмме  представлены связи между всеми  шагами процесса и технологии Microsoft SQL Server, которые можно использовать для выполнения каждого шага.

Процесс, представленный на следующей диаграмме, является циклическим, то есть создание аналитической модели данных является динамическим и повторяющимся  процессом. Выполнив просмотр данных, пользователь может обнаружить, что данных недостаточно для создания требуемых моделей интеллектуального анализа данных, что ведет к необходимости поиска дополнительных данных. Также может возникнуть ситуация, когда после построения нескольких моделей окажется, что они не дают адекватный ответ на поставленную задачу, и поэтому необходимо поставить задачу по-другому. Может возникнуть необходимость в обновлении уже развернутых моделей за счет новых поступивших данных. Для создания хорошей модели может понадобиться многократно повторить каждый шаг процесса.

Подготовка данных

Вторым шагом процесса интеллектуального анализа данных, как видно из следующей диаграммы, является объединение и очистка  данных, определенных во время шага Постановка задачи.

Данные могут находиться в разных частях компании и храниться  в различных форматах или содержать  такие ошибки согласования, как неверные или отсутствующие записи.  Например, согласно данным, может оказаться, что клиент купил товар до того, как тот появился на рынке, или регулярно делает покупки в магазине, расположенном за 3 000 километров от дома.

Очистка данных — это  не только удаление недопустимых данных или интерполяция отсутствующих  значений, но и поиск в данных скрытых зависимостей, определение  источников самых точных данных и  подбор столбцов, которые больше всего  подходят для использования в  анализе. Например, следует ли использовать дату отгрузки или дату заказа? Какой фактор сильнее всего влияет на продажи — количество товара, итоговая цена или цена со скидкой? Неполные данные, ошибочные данные и входные параметры, которые выглядят как независимые, но на самом деле имеют прочную взаимосвязь, могут непредвиденным образом повлиять на результаты модели.

Поэтому перед началом  построения моделей интеллектуального  анализа данных следует выявить  такие проблемы и определить, как  их устранить.

Очистка данных

Очистка данных (data cleaning, data cleansing или scrubbing) занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных. Проблемы с качеством встречаются в отдельных наборах данных - таких, как файлы и базы данных, - например, как результат ошибок при вводе, утери информации и других загрязнений данных. Когда интеграции подлежит множество источников данных, например - в Хранилищах, интегрированных системах баз данных или глобальных информационных Интернет-системах, - необходимость в очистке данных существенно возрастает. Это происходит оттого, что источники часто содержат разрозненные данные в различном представлении. Для обеспечения доступа к точным и согласованным данным необходимо объединение различных представлений данных и исключение дублирующейся информации.

Проблемы очистки  данных

Преобразование данных требуется  для поддержки любых изменений  в структуре, представлении или содержании данных. Эти преобразования становятся необходимы в разных ситуациях, например при изменении структуры данных, переходе на новую информационную систему или в случае, когда нужно интегрировать множественные источники данных. Как показано на Рис. 2 мы проводим четкий водораздел между проблемами с одним и со множеством источников и между проблемами со схемой и с элементами данных. Проблемы уровня схемы, разумеется, отражаются и в элементах данных; они решаются с помощью ее улучшения, трансляции и интеграции схемы данных. С другой стороны, проблемы уровня элемента данных связаны с ошибками и несоответствиями в содержимом текущих данных, незаметных на уровне схемы.Они-то и являются основной целью очистки. Рис. 2 отражает также некоторые частичные проблемы для различных случаев. Хотя этого и нет на Рис. 2, проблемы в отдельных источниках с увеличивающейся вероятностью встречаются и в случае множества источников, - и это помимо специфических проблем, характерных для таких случаев.

 
 

Рис. Классификация проблем качества данных в источниках данных

 

Методы очистки  данных

В целом, очистка данных включает несколько этапов:

  • Анализ данных: для выявления подлежащих удалению видов ошибок и несоответствий, необходим подробный анализ данных. Наряду с ручной проверкой данных или их шаблонов, следует использовать аналитические программы для получения метаданных о свойствах данных и выявления проблем качества данных.
  • Определение порядка и правил преобразования данных: В зависимости от числа источников данных, степени их неоднородности и загрязненности данных, они могут требовать достаточно обширного преобразования и очистки. Иногда для отображения источников для общей модели данных используется трансляция схемы; для Хранилищ данных обычно используется реляционное представление. Первые шаги по очистке данных могут скорректировать проблемы отдельных источников данных и подготовить данные для интеграции. Дальнейшие шаги должны быть направлены на интеграцию схемы/данных и устранение проблем множественных элементов, например - дубликатов. Для Хранилищ в процессе работы по определению ETL должны быть определены методы контроля и поток данных, подлежащий преобразованию и очистке. Преобразования данных, связанные со схемой так же, как и этапы очистки, должны, насколько возможно, определяться с помощью декларативного запроса и языка маппирования, обеспечивая, таким образом, автоматическую генерацию кода преобразования. К тому же, в процессе преобразования должна существовать возможность запуска написанного пользователем кода очистки и специальных средств. Этапы преобразования могут требовать обратной связи с пользователем по тем элементам данных, для которых отсутствует встроенная логика очистки.
  • Подтверждение: Правильность и эффективность процесса и определений преобразования должны тестироваться и оцениваться, например, на примере или копии данных источника, - чтобы выяснить, необходимо ли как-то улучишь эти определения. При анализе, проектировании и подтверждении может потребоваться множество итераций, например, ввиду того, что некоторые ошибки становятся заметны только после определенных преобразований.
  • Преобразования: выполнение преобразований либо в процессе ETL для загрузки и обновления Хранилища данных, либо при ответе на запросы по множеству источников.
  • Противоток очищенных данных: После того, как ошибки(отдельного источника) удалены, очищенные данные должны заместить загрязненные данные в исходных источниках, чтобы улучшенные данные попали и в унаследованные приложения и в дальнейшем при извлечении не требовали дополнительной очистки. Для Хранилищ данных очищенные данные находятся в области хранения данных.

Поддержка инструментов

Сегодня на рынке существует большой выбор средств для поддержки преобразований и очистки данных, в особенности для Хранилищ данных.

Ряд средств ориентированы  на специфическую область - например, на очистку данных по именам и адресам  или на специфические фазы очистки - например, анализ данных или исключение дубликатов. Благодаря своей ограниченной области применения, специализированные средства обычно очень эффективны, однако для работы с широким спектром проблем преобразования и очистки  они нуждаются в дополнении другими  инструментами. Другие инструменты - например, средства ETL,- обеспечивают возможность сложных преобразований и большей части технологического процесса преобразования и очистки данных. Общей проблемой средств ETL являются ограниченные за счет собственных API и форматов метаданных возможности взаимодействия, усложняющие совместное использование различных средств.

1. Средства анализа  и модернизации данных

Согласно классификации, средства анализа данных могут быть разделены на средства профайлинга данных и средства data mining.

MIGRATIONARCHITECT (Evoke Software) является одним из немногих коммерческих инструментов профайлинга данных. Для каждого атрибута он определяет следующие метаданные: тип данных, длину, множество элементов, дискретные значения и их процентное отношение, минимальные и максимальные значения, утраченные значения и уникальность. MIGRATIONARCHITECT также может помочь в разработке целевой схемы для миграции данных. Средства data mining - такие, как WIZRULE (WizSoft)и DATAMININGSUITE (InformationDiscovery), выводят отношения между атрибутами и их значениями и вычисляют уровень достоверности, отражающий число квалифицирующих рядов. В частности, WIZRULE может отражать три вида правил:математическую формулу, правила if-then (если-то) и правила правописания,отсеивающие неверно написанные имена, - например, "значение Edinburgh 52 раза встречается в поле Потребитель; 2 случая(ев) содержат одинаковые значения".WIZRULE также автоматически указывает на отклонения от набора обнаруженных правил как на возможные ошибки. Средства модернизации данных, например,INTEGRITY (Vality), используют обнаруженные шаблоны и правила для определения и выполнения очищающих преобразований, т.е. модернизируют унаследованные данные.В INTEGRITY элементы данных подвергаются ряду обработок - разбору, типизации,анализу шаблонов и частот. Результатом этих действий является табличное представление содержимого полей, их шаблонов и частот, в зависимости от того,какие шаблоны можно выбрать для стандартизации данных. Для определения очищающих преобразований INTEGRITY предлагает язык с набором операторов для преобразований столбцов (например, перемещения, расщепления, удаления) и рядов.Более полный список поставщиков и инструментов можно найти на соответствующих коммерческих сайтах - Data Warehouse Information Center (www.dwinfocenter.org), Data Management Review (www.dmreview.com), Data Warehousing Institute (www.dw-institute.com) (например, слияние и расщепление). INTEGRITYидентифицирует и консолидирует записи с помощью метода статистического соответствия. При вычислении оценок для упорядочивания соответствий, по которым пользователь отбирает настоящие дубликаты, используются взвешенные коэффициенты.

2. Специальные  средства очистки

Специальные средства очистки  обычно имеют дело с конкретными  областями, - в основном это имена  и адреса, - или же с исключением  дубликатов. Преобразовании либо обеспечиваются заранее в форме библиотеки правил, либо в интерактивном режиме, пользователем. Преобразовании данных могут быть автоматически получены и с помощью средств согласования схемы.

    • Очистка специфической области: Имена и адреса записаны в различных источниках и обычно имеют множество элементов. И поиск соответствий для потребителя имеет большое значение для управления отношениями с клиентами.Ряд коммерческих инструментов, - например, IDCENTRIC (FirstLogic), PUREINTEGRATE (Oracle), QUICKADDRESS (QASSystems), REUNION (PitneyBowes) иTRILLIUM (TrilliumSoftware), - предназначены для очистки именно таких данных.Они содержат методы - например, извлечение и преобразования имен и адресов в отдельные стандартные элементы, проверку допустимости названий улиц, городов и индексов, вместе с возможностями сопоставления на основе очищенных данных. Они включают огромную библиотеку предопределенных правил относительно проблем,часто встречающихся в данных такого рода. Например, модуль извлечение TRILLIUM (парсер) и модуль сопоставления содержат свыше 200000 бизнес-правил. Эти инструменты обеспечивают и возможности настройки или расширения библиотеки правил за счет правил, определенных пользователем для собственных специфических случаев.
    • Исключение дубликатов: Примерами средств для выявления и удаления дубликатов являются DATACLEANSER (EDD), MERGE/PURGELIBRARY (Sagent/QMSoftware), MATCHIT (HelpITSystems) и MASTERMERGE (PitneyBowes).Обычно они требуют, чтобы источник данных уже был очищен и подготовлен для согласования. Ими поддерживается несколько подходов к согласованию значений атрибутов; такие средства, как DATACLEANSER и MERGE/PURGE LIBRARY позволяют также интегрировать правила согласования, определенные пользователем.

3. Инструменты  ETL

Многие коммерческие инструменты  поддерживают процесс ETL для Хранилищ данных на комплексном уровне, например, COPYMANAGER (InformationBuilders), DATASTAGE (Informix/Ardent), EXTRACT (ETI), POWERMART (Informatica), DECISIONBASE (CA/Platinum), DATATRANSFORMATIONSERVICE (Microsoft), METASUITE (Minerva/Carleton), SAGENTSOLUTIONPLATFORM (Sagent) и WAREHOUSEADMINISTRATOR (SAS). Для единообразного управления всеми метаданными по источникам данных,целевым схемам, маппированиям, скриптам и т.д. они используют репозиторий на основе СУБД. Схемы и данные извлекаются из оперативных источников данных как через "родной" файл и шлюзы СУБД DBMS, так и через стандартные интерфейсы -например, ODBC и EDA. Преобразовании данных определяются через простой графический интерфейс. Для определения индивидуальных шагов маппирования обычно существует собственный язык правил и комплексная библиотека предопределенных функций преобразования. Эти средства поддерживают и повторное использование существующих преобразованных решений, например, внешних процедур C/C++ с помощью имеющегося в них интерфейса для их интеграции во внутреннюю библиотеку преобразований. Процесс преобразования выполняется либо системой,интерпретирующей специфические преобразования в процессе работы, либо откомпилированным кодом. Все средства на базе системы (например, COPYMANAGER, DECISIONBASE, POWERMART, DATASTAGE, WAREHOUSEADMINISTRATOR), имеют планировщик и поддерживают технологические процессы со сложными зависимостями выполнения между этапами преобразования. Технологический процесс может также помогать работе внешних средств, например - в специфических задачах очистки - например,таких, как очистка имен/адресов или исключение дубликатов.

Информация о работе Подготовка данных к интеллектуальному анализу данных. Очистка данных