Автор работы: Пользователь скрыл имя, 25 Апреля 2012 в 00:08, доклад
Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.
Средства ETL обычно содержат мало встроенных возможностей очистки, но позволяют пользователю определять функциональность очистки через собственныйAPI. Как правило, анализ данных для автоматического выявления ошибок и несоответствий в данных не поддерживается. Тем не менее, пользователи могут реализовывать такую логику при работе с метаданными и путем определения характеристик содержимого с помощью функций агрегации (sum, count, min, max, median, variance, deviation,…). Поставляемая библиотека преобразований отвечает различным потребностям преобразования и очистки данных - например, конверсию типов данных (в частности - переформатирование данных), строковые функции(например, расщепление, слияние, замена, поиск по подстроке), арифметические,научные и статистические функции и т.д. Извлечение значений из атрибутов свободного формата автоматизировано не полностью, и пользователю приходится определять разделители, разграничивающие фрагменты значений.
Языки правил обычно охватывают конструкции if-then и case, способствующие обработке исключений в значениях данных - например, неверных написаний,аббревиатур, утраченных или зашифрованных значений и значений вне допустимого диапазона. Эти проблемы могут также решаться с помощью функциональных возможностей по выборке данных из таблиц. Поддержка согласования элементов данных обычно ограничена использованием возможностей объединения и нескольких простых строковых функций соответствия, Например, точного или группового соответствия или soundex. Тем не менее, определенные пользователем функции соответствия полей, так же, как и функции корреляции сходства полей, могут программироваться и добавляться во внутреннюю библиотеку преобразований.
Выводы
Несмотря на то, что описанные средства являются достаточно современными,они, тем не менее, не решают всех проблем и все еще требуют дополнительной обработки вручную или дополнительного программирования. Кроме того, они имеют весьма ограниченные возможности взаимодействия (собственные API и представления метаданных). Тем не менее, эти средства демонстрируют нам важность и сложность задач очистки данных.
Информация о работе Подготовка данных к интеллектуальному анализу данных. Очистка данных