Автор работы: Пользователь скрыл имя, 27 Декабря 2010 в 02:53, курсовая работа
Шкалирование информации состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов. Процедура построения структуры опирается на анализ объективной или субъективной информации о близостях между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи. С одной стороны, выявляется объективная структура субъективных данных, с другой — определяются факторы, влияющие на процесс принятия решения.
ВВЕДЕНИЕ 3
1 КОМПЬЮТЕРНАЯ МЕТОДИКА Т. ЛИРИ 4
2 ПРОБЛЕМЫ АВТОМАТИЗАЦИИ ИНТЕРПРЕТАЦИИ ДАННЫХ ОПРОСНИКА Т. ЛИРИ 8
3 ИЗВЛЕЧЕНИЕ ЗНАНИЙ 10
4 КОНЦЕПТУАЛЬНЫЙ АНАЛИЗ ЗНАНИЙ 12
ЗАКЛЮЧЕНИЕ 15
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 16
Приложение А 17
МИНИСТЕРСТВО
ОБРАЗОВАНИЯ РЕСПУБЛИКИ
БЕЛАРУСЬ
Учреждение образования «Гомельский государственный университет
имени
Франциска Скорины»
Математический
факультет
Кафедра
математических проблем
управления
Разработка алгоритмических средств
шкалирования
информации на примере
экспертной системы
АВТАНТЕСТ
К
У Р С О В
О Й П Р
О Е К Т
Исполнитель
студент группы ПОИТ-31 Марухленко
Павел
Викторович
Научный руководитель Осипенко
к.ф.-м.н.,
доцент Наталья Борисовна
Гомель 2010
Содержание
Шкалирование информации состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов. Процедура построения структуры опирается на анализ объективной или субъективной информации о близостях между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи. С одной стороны, выявляется объективная структура субъективных данных, с другой — определяются факторы, влияющие на процесс принятия решения.
Шкалирование
данных – это одна из традиционных
задач для экспертных систем. Под
этим понимается определение смысла данных,
результаты которого должны быть согласованными
и корректными. В АВТАНТЕСТ происходит
интерпретация данных, определение основных
свойств личности по результатам психодиагностического
тестирования.
Многомерное шкалирование предлагает геометрическое представление стимулов в виде точек координатного пространства минимально возможной размерности.
Существует два типа моделей: дистанционные и векторные. В дистанционных моделях исходные различия должны быть приближены расстояниями, в большинстве случаев используют привычное евклидово расстояние:
Формула 1
В векторных моделях меры близостей или связей — величины, обратные различиям, аппроксимируются скалярными произведениями векторов, соединяющих точки, соответствующие стимулам, с началом координат:
Формула 2
При построении конфигурации стимулов используется аппарат линейной или нелинейной оптимизации. Почему же такая простая модель и формальные методы поиска экстремума позволяют получить содержательно интерпретируемое решение? Почему оси, построенные формальным образом, приобретают смысл хорошо интерпретируемых факторов?
Векторная модель. Обсудим геометрические свойства векторной модели. Начнем со шкалирования бинарных данных, т. е. высказываний типа «похожи—непохожи». Допустим, что мы имеем матрицу, содержащую информацию о том, что все стимулы не похожи друг на друга. Как можно представить геометрически такую структуру? Стимулы должны располагаться либо на ортогональных прямых, либо в начале координат. В этом случае все скалярные произведения будут нулями.
Перейдем к ситуации наличия нескольких групп похожих между собой стимулов. Стимулы из одной группы должны представляться одной точкой; точки, соответствующие разным группам, должны принадлежать ортогональным прямым. Изолированные стимулы могут быть помещены в начало координат. Тогда скалярные произведения между похожими стимулами будут большими, а скалярные произведения между непохожими стимулами будут нулями.
Ориентируем оси координатного пространства вдоль ортогональных направлений. Тогда каждая ось будет связана с группой похожих между собой стимулов, и фактор, ей соответствующий, будет лежать в основе сходства этих стимулов. Разным группам будут соответствовать ортогональные осп и, следовательно, независимые факторы. Исключение составляют изолированные стимулы, которые могут попасть в начало координат. Чем больше стимулов объединяются в группы, тем меньше измерений необходимо.
Пусть теперь мы располагаем дискретными или непрерывными данными, т. с. получаем оценки о сходствах или связях либо в виде баллов, либо в виде чисел. Допустим, что в этом случае матрица имеет квазиблочпую структуру. Тогда по ней можно разбить все множество на несколько групп так, что стимулы внутри каждой группы будут сильно связаны, а стимулы из разных групп—слабо связаны между собой. Характер отображения будет примерно таким же, как в случае непересекающихся бинарных данных. Однако стимулы из одной группы не будут представляться одной точкой, а будут сконцентрированы в некоторой ее окрестности. Такая структура, вообще говоря, не будет совпадать с ортогональной системой координат, поскольку точки могут лежать несколько в стороне от осей. Однако если связи в группах достаточно сильны, а связи между группами достаточно слабы, то и в этом случае каждое измерение будет связано с одной группой и фактор, ему соответствующий, будет лежать в основе сходства стимулов из этой группы.
На практике сильно структурированные данные, характеризующие непересекающиеся группы стимулов, встречаются редко, обычно группы имеют пересечения. Имеются стимулы, похожие одновременно на стимулы из двух или нескольких групп. Естественно, что они не попадут на оси, а будут располагаться в пространстве между ними. Характер распределения будет зависеть от матрицы исходных данных. Картина будет тем контрастнее, чем более структурированы данные, т. е. сильнее внутригрупповые связи и слабее — межгрупповые. Оси будут определяться группами стимулов, которые очень похожи между собой и минимально похожи на стимулы из других групп. Такие стимулы характеризуются большими значениями координат по соответствующим осям. Эти группы стимулов лежат в основе всей структуры. Остальные стимулы, похожие одновременно на стимулы из нескольких групп, должны занять промежуточные положения между этими группами.
Поскольку исходная матрица не является матрицей точных расстояний или скалярных произведений, то все стимулы не могут быть отображены в пространстве, определяемом ортогональными осями, соответствующими изолированным группам. Для их размещения потребуются дополнительные размерности. Если первый тип размерностей определяется большими межгрупповыми различиями и каждая размерность характеризуется значительным разбросом стимулов, то второй тип размерностей возникает за счет того, что субъективные различия между стимулами не могут быть отображены точным образом в пространстве небольшого числа размерностей. Разброс стимулов вдоль размерностей второго типа невелик и во многих случаях им можно пренебречь.
Центрированная векторная модель. Другой вариант векторной модели — модель центрированных скалярных произведений. На ней основан широко распространенный метод Торгерсона, положивший начало теории многомерного шкалирования. В этой модели полагается, что начало координат помещено в центре тяжести структуры. Исходные близости или связи должны быть аппроксимированы скалярными произведениями векторов, соединяющих точки, соответствующие стимулам, с центром тяжести конфигурации. Матрица исходных близостей предварительно центрируется, так что наряду с положительными числами в ней появляются и отрицательные. Если пронормировать приведенные данные: |ajk| 1, то их можно рассматривать как коэффициенты корреляции.£
Решение,
порождаемое моделью
Большие положительные, отрицательные, а также нулевые связи будут определять основную структуру всей системы. Стимулы, характеризующиеся умеренными связями, будут располагаться между этими основными группами стимулов. Чем слабее связи, тем ближе стимулы к началу координат. Поскольку исходная матрица близостей или связей не является точной матрицей скалярных произведений, то все стимулы не могут быть отображены в пространстве небольшой размерности. Как и в случае предыдущей модели, для компенсации шума в данных потребуются дополнительные размерности, разброс в направлении которых незначителен по сравнению с основными размерностями и им можно пренебречь. Таким образом, модель центрированных скалярных произведений позволяет отобразить структуру системы в координатном пространстве, натянутом на небольшое множество ортогональных прямых. Повернем первоначальные оси пространства и совместим их с этими прямыми. Тогда каждую ось можно интерпретировать как биполярный фактор: справа будут располагаться стимулы, характеризующиеся положительными значениями этого фактора, слева — отрицательными, а в центре — нулевыми. Ортогональные оси будут соответствовать стимулам или группам стимулов, не связанных между собой, поэтому они могут интерпретироваться как независимые факторы. Решение, порождаемое моделью, будет иметь смысловое содержание.
Дистанционная модель. Посмотрим теперь, какими свойствами обладает дистанционная модель; ограничимся евклидовой метрикой. Начнем опять с системы, в которой все стимулы не похожи друг на друга. Для точной передачи структуры этой системы следует поместить каждый стимул в одну из N вершин многогранника с одинаковыми ребрами (симплекса). Тогда стимулы будут отстоять друг от друга на одинаковом расстоянии.
Пусть
имеется несколько
В общем случае произвольной матрицы различий группы похожих между собой стимулов будут сконцентрированы вблизи одной вершины, а стимулы, похожие одновременно на стимулы из двух или нескольких групп, будут располагаться между этими вершинами.
Характер конструкции будет определяться в основном большими различиями между стимулами или группами стимулов. Однако, как и в случае векторной модели, ввиду того, что матрица различий не является точной матрицей расстояний, для передачи структуры потребуются дополнительные размерности. Но разброс стимулов в этих направлениях будет сравнительно мал.
В результате шкалирования необходимо выявить существенные оси, разброс в направлении которых велик, и отбросить несущественные оси, разброс в направлении которых мал. Итак, следуя модели многомерного шкалирования, можно разместить все стимулы в пространстве таким образом, чтобы оси несли смысловую нагрузку и факторы, им соответствующие, лежали в основе сходств или различий между стимулами.
Построенная результирующая конфигурация и полученные размерности отражают данные, занесенные в матрицу близостей или различий. И хотя многомерное шкалирование при своем зарождении было предназначено для анализа высказываний человека, никакой специфики обработки субъективных данных в нем не содержится. Оно в равной мере может использоваться и для анализа объективных данных о близостях или связях. Более того, иногда легче поддаются интерпретации объективные данные, потому что они характеризуют некие объективные связи между объектами. Интерпретация субъективных данных, построенных на основе высказываний одного человека (эксперта, испытуемого), может вызвать значительные затруднения у другого человека (исследователя, экспериментатора).