Подготовка данных к интеллектуальному анализу данных. Очистка данных

Автор работы: Пользователь скрыл имя, 25 Апреля 2012 в 00:08, доклад

Описание

Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.

Работа состоит из  1 файл

Подготовка данных к интеллектуальному анализу данных.docx

— 90.92 Кб (Скачать документ)

Средства ETL обычно содержат мало встроенных возможностей очистки, но позволяют пользователю определять функциональность очистки через  собственныйAPI. Как правило, анализ данных для автоматического выявления ошибок и несоответствий в данных не поддерживается. Тем не менее, пользователи могут реализовывать такую логику при работе с метаданными и путем определения характеристик содержимого с помощью функций агрегации (sum, count, min, max, median, variance, deviation,…). Поставляемая библиотека преобразований отвечает различным потребностям преобразования и очистки данных - например, конверсию типов данных (в частности - переформатирование данных), строковые функции(например, расщепление, слияние, замена, поиск по подстроке), арифметические,научные и статистические функции и т.д. Извлечение значений из атрибутов свободного формата автоматизировано не полностью, и пользователю приходится определять разделители, разграничивающие фрагменты значений.

Языки правил обычно охватывают конструкции if-then и case, способствующие обработке исключений в значениях данных - например, неверных написаний,аббревиатур, утраченных или зашифрованных значений и значений вне допустимого диапазона. Эти проблемы могут также решаться с помощью функциональных возможностей по выборке данных из таблиц. Поддержка согласования элементов данных обычно ограничена использованием возможностей объединения и нескольких простых строковых функций соответствия, Например, точного или группового соответствия или soundex. Тем не менее, определенные пользователем функции соответствия полей, так же, как и функции корреляции сходства полей, могут программироваться и добавляться во внутреннюю библиотеку преобразований.

Выводы

Несмотря на то, что описанные  средства являются достаточно современными,они, тем не менее, не решают всех проблем и все еще требуют дополнительной обработки вручную или дополнительного программирования. Кроме того, они имеют весьма ограниченные возможности взаимодействия (собственные API и представления метаданных). Тем не менее, эти средства демонстрируют нам важность и сложность задач очистки данных.


Информация о работе Подготовка данных к интеллектуальному анализу данных. Очистка данных