Автор работы: Пользователь скрыл имя, 27 Марта 2012 в 22:14, реферат
Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура включает следующие элементы:
• хранилище (базу) документов;
Введение
Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура включает следующие элементы:
• хранилище
(базу) документов;
• глобальный словарь системы;
• индекс документов инвертированного
типа;
• интерфейс ввода (постановки на учет)
документов в систему;
• механизм (машину) индексирования;
• интерфейс запросов пользователя;
• механизм поиска документов (поисковую
машину);
• механизм извлечения (доставки) найденных
документов.
Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов. Для компактного хранения документов они могут быть сжаты архиваторами.
Другой вариант не предусматривает создания локально сосредоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (структура дисков и каталогов отдельного компьютера или локальной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы текстовых документов распределены и размещаются в тех узлах и элементах информационной инфраструктуры, которые соответствуют технологии создания и обработки документов (документообороту). Вместе с тем все они учтены в полнотекстовой ИПС (т.е. проиндексированы по содержанию и зафиксированы по месторасположению) для эффективного поиска и доступа к ним. Такой подход более логичен с точки зрения технологий документооборота или распределенного характера систем (например, система WWW сети Интернет), но недостатком имеет необходимость постоянного отслеживания и учета возможных перемещений документов.
Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими.
Статические словари не зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого и т. д.). Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономичен и обеспечивает некоторую настройку словарной базы на предметную область документов.
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие через интерфейс ввода/вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа, откуда, повторимся, происходит и название - «полнотекстовые ИПС».
Важной особенностью, оказывающей существенное влияние на эффективность полнотекстовых ИПС, является наличие либо отсутствие морфологического разбора при индексировании документов и запросов. Морфологический разбор позволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т. е. одни и те же слова, отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т. п.). Такой процесс основывается на нормализации глобального словаря системы, объединяющей в одну словоформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова (стоп-слова) - предлоги, союзы, восклицания, междометия и некоторые другие грамматические категории. В большинстве случаев морфологический разбор осуществляется в системах со статическим глобальным словарем.
В результате
индексирования ПОД каждого нового
документа представляется набором
словоформ из глобального словаря,
присутствующих в тексте документа,
и поступает в виде соответствующего
двоичного вектора для
Пользователь
языком запросов ИПЯ полнотекстовой
ИПС через соответствующий
Таким образом,
программное обеспечение
Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.
АИСЗ являются частью следующих типов информационных систем.
1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым услугам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.
2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).
3. Системы информационной поддержки деятельности правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.
4.
Системы автоматизации
Основными особенностями АИСЗ являются:
♦ необходимость предоставления адресного доступа к полным текстам;
♦ в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);
♦ тексты нормативных актов должны подвергаться
так называемой
юридической обработке, при которой тексту
приписываются не
только классификационные индексы, ключевые
слова или дескрипторы (как при обычном
индексировании), но и комментарии специалистов,
ссылки на предшествующие версии, связанные
документы, решения судов и др.
Заключение
Заключение
пишется в конце и предполагает
конечность. Но рост информации бесконечен,
а потому нет предела совершенствованию
поисковых машин. Важнейшей задачей
разработчиков является улучшение
качества поиска, движение в сторону
большей эффективности и
Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет.
Список используемой литературы
1. Введение
в правовую информатику.
2. Автоматизированные
информационные технологии в
экономике. Учебник./Под ред.
3. Информационные технологии (для экономиста)./ Под общей редакцией А.К. Волкова. – Москва, ИНФРА-М, 2001.