Автор работы: Пользователь скрыл имя, 16 Марта 2012 в 12:34, реферат
Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети. В данной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. При появлении сети Интернет проблема поиска становилась более актуальной.
Введение
1.Понятие информационно- поисковой системы
2. Фактографическая ИПС
3. Документационная ИПС
Заключение
Список используемой литературы
Содержание
Введение
1.Понятие информационно- поисковой системы
2. Фактографическая ИПС
3. Документационная ИПС
Заключение
Список используемой литературы
Введение
Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети. В данной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин. Информационные системы являются основным средством, инструментарием решения задач информационного обеспечения различных видов деятельности и наиболее бурно развивающейся отраслью индустрии информационных технологий.
1.Понятие информационно-поисковой системы
ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.
Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.
Релевантность - это соответствие результатов поиска сформулированному запросу.
2. Документальные информационные системы
Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.
Документальный поиск – информационный поиск, цель которого нахождение в хранилище ИПС документов, соответствующих полученному запросу. В реальных условиях документальный поиск осуществляется в два этапа: в хранилище вторичных документов, в хранилище первичных документов. Соответственно выделяют два вида документального поиска: библиографический и библиотечный.
Библиографический поиск – документальный поиск, осуществляемый с целью нахождения данных о первичных документах и их адресах. ИПС, обеспечивающая хранение вторичных документов и библиографический поиск называется библиографической информационно – поисковой системой.
Библиотечный поиск – документальный поиск, осуществляемый с целью нахождения первичных документов в их собрании. Соответствующая ИПС называется библиотечной.
При документальном поиске потребитель сам извлекает из документа интересующие его факты и идеи.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового предписания (ПП) и поисковых образов документов(ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПП. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПП.
Релевантность – соответствие содержания документа информационному запросу в том виде, в котором он сформулирован.
Фактическая релевантность, понимаемая как смысловое соответствие содержания выданного документа информационному запросу, может быть установлена человеком в процессе осмысления содержания документа и запроса.
3. Фактографические информационные системы
Фактографические информационные системы оперируют фактическими сведениями, представляемыми в виде специальным образом организованных совокупностей формализованных записей данных. В фактографических ИС регистрируются факты – конкретные значения данных (атрибутов) об объектах реального мира. Основная идея таких систем заключается в том, что все сведения об объектах (фамилии людей и названия предметов, числа, даты) сообщаются компьютеру в каком-то заранее обусловленном формате (например, дата – в виде комбинации ДД.ММ.ГГГГ). Информация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отличать одно данное от другого, – например, фамилию от должности человека, дату рождения от роста и т. п.
Фактографический поиск представляет собой поиск фактов, непосредственно отвечающих на запрос. Поэтому фактографическая система способна давать однозначные ответы на поставленные вопросы, например: “Сколько велосипедов марки А-18 продал магазин “Спорт” в июне 2004 г.?”, “Кто из работников фирмы с датой рождения не ранее 1 января 1970 г. имеет водительские права?”, “Какие культурно-исторические памятники Санкт-Петербурга включены в список ЮНЕСКО?” и т. д.
Центральным функциональным звеном фактографических информационных систем являются системы управления базами данных.
Современные СУБД оперируют огромными массивами информации, объемы которых достигают десятков терабайт. Выполняя запрос пользователя они должны обеспечит время отклика порядка нескольких секунд. Для этого во всех СУБД организован метод ускоренного доступа к данным. В настоящее время в СУБД используется два метода организации прямого доступа: индексирование и хэширование.
Метод индексирования основан на использовании индексов. Индекс это специальная структура создаваемая автоматически или по запросу пользователя. Индекс похож на предметный указатель книг. Работа с ним выглядит, так же как и с предметным указателем. Разница лишь в том, что СУБД делает все автоматически. В индексах все значения хранятся упорядоченно, каждому значению соответствует указатель на строку таблицы. Индекс занимает значительно меньший объем, чем таблица, а также упорядоченное хранение информации значительно ускоряет ее поиск.
Основная идея хэширования – организация ассоциативной памяти для хранения строк таблицы. Место строки вычисляется хэш-функцией, аргументы которой фактографические описания, а результат – целое число в диапазоне номеров строк таблицы. Идеальная хэш-функция должна давать разные значения номеров строк для разных ключевых атрибутов. Однако построить такую функцию не всегда удается.
Доступ к данным при хэшировании производится так. В начале работы с БД таблица состоит из пустых строк. Когда строка с данными заносится в таблицу, для нее вычисляется значение хэш-функции и результат трактуется как номер строки таблицы, в которую она должна быть записана. Если эта строка уже занята, то по некоторому алгоритму производится проверка следующих строк таблицы до тех пор, пока не будет обнаружено свободное место (при этом, как правило, считается, что таблица имеет кольцевую структуру). В это место и помещается записываемая строка. Для поиска данных используется аналогичный алгоритм. Сначала вычисляется значение хэш-функции для требуемого значения фактографического описания и проверяется строка таблицы, номер которой вычислен хэш-функцией. Если описание, по которому происходит доступ, соответствует значению ключа строки, то поиск заканчивается. В противном случае проверяются следующие строки таблицы до обнаружения строки с нужным значением или пустой строки. Пустая строка свидетельствует об отсутствии заданного описания — процедура занесения данных обязательно использовала бы ее, если бы оно существовало.
Если таблица заполнена не более чем на 60%, то для размещения в ней новой строки необходимо проверить в среднем не более двух ячеек. Иногда для устранения коллизий, возникающих, если хэш-функция выдает номер занятой строки, используют не линейный просмотр, а более сложные методы.
База данных бесполезна, если отсутствуют средства доступа к информации в ней. Для получения информации из БД пользователи направляют СУБД запросы. СУБД обрабатывает их и отправляет результаты обработки пользователям. Запросы формулируются на специальном «языке запросов». Фактическим стандартом такого языка для современных реляционных СУБД стал SQL (Structured Query Language — структурный язык запросов). В текущий стандарт языка SQL входят операторы такие как: «ВЫБРАТЬ ДАННЫЕ ИЗ БД», «ДОБАВИТЬ ДАННЫЕ В БД», «УДАЛИТЬ ДАННЫЕ ИЗ БД» и т.п.
Таблицы невозможно хранить и обрабатывать, если в базе отсутствуют «данные о данных» (метаданные), например, описатели таблиц, столбцов и т.д. Метаданные также представлены в табличной форме и хранятся в словаре данных.