Автор работы: Пользователь скрыл имя, 02 Апреля 2012 в 22:46, реферат
В компьютерной области проблема запоминания в общем решена - запомнить "наизусть" можно любые количества информации, но проблема получения из этой информации знаний остается и часто только усугубляется при росте объема данных.
1. Модель взаємодії інформації та знання.
2. Роль інформації, алгоритм аналізу та етапи її переробки в процесі прийняття рішень.
3. Труднощі інформаційної роботи. Управління знаннями.
4. Канали та джерела інформації. Властивості та вимоги до управлінської інформації.
5. Методи пошуку та отримання інформації. Верифікація інформації.
СЕМІНАР 2
Інформація та знання в процесі прийняття рішень
1. Модель взаємодії інформації та знання.
2. Роль інформації, алгоритм аналізу та етапи її переробки в процесі прийняття рішень.
3. Труднощі інформаційної роботи. Управління знаннями.
4. Канали та джерела інформації. Властивості та вимоги до управлінської інформації.
5. Методи пошуку та отримання інформації. Верифікація інформації.
Информация и знания - не одно и то же.
Всякий, кто в своей жизни сдавал экзамены, сталкивался с тем фактом, что информация и знания - разные вещи, и ощущал, насколько мучительным может быть процесс превращения одного в другого.
Важно отметить, что этот процесс - не механический. Даже в столь простом случае, как подготовка по учебнику, он должен включать не только запоминание, но и понимание.
Хорошая память может помочь кое-как сдать какую-нибудь общественную дисциплину, поскольку для этого часто достаточно просто воспроизвести усвоенную информацию "близко к тексту", но не слишком помогает сдавать экзамены по точным наукам, где на основе усвоенной информации нужно уметь решать задачи.
В компьютерной области проблема запоминания в общем решена - запомнить "наизусть" можно любые количества информации, но проблема получения из этой информации знаний остается и часто только усугубляется при росте объема данных.
Не пытаясь дать формальное определение, перечислим очевидные отличия знаний от информации. Мы рискуем впасть в противоречие с определениями знаний, принятыми в сфере так называемого искусственного интеллекта, однако это не страшно - нас интересуют не умозрительные конструкции, а чисто практические применения.
Итак, знания отличают от информации следующие свойства.
Структурированность . Знания должны быть разложены по полочкам - это ясно. Для печатных знаний (книг, журналов, равно как и для компьютерных хранилищ) это означает удобную архитектуру и прозрачность хранилища знаний, т. е. наличие ясных названий и заголовков, удобного представления структуры (оглавлений, рубрикаторов).
Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа, т. е. поиск, краткие аннотации к документам, индексы и проч.
Лаконичность . Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота.
Непротиворечивость . " Хорошие" данные/знания не должны противоречить друг другу, что очевидно или по крайней мере желательно. Однако для многих областей сбора знаний это изначально не так - на вход хранилища знаний может поступать разноречивая информация. Задача собирателя знаний обнаружить противоречия и разрешить их на этапе сбора знаний либо присвоить разным элементам данных различную оценку достоверности.
Оценка достоверности. Безусловно, усваивая или используя знания, хочется знать, насколько они достоверны. Хорошее хранилище знаний (учебник или база данных) должно иметь такую оценку для своих элементов. Но мы оценку достоверности в этой статье рассматривать не станем, так как будем для простоты считать, что для интересующих нас полнотекстовых задач все тексты - это несомненные факты.
Процедуры обработки. Знания нужны для того, чтобы их использовать - строить новые знания, решать задачи и проч. Одно из главных применений знаний - возможность передачи знаний другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т. е. наличие специальных форматов знаний.
Как отличить одно от другого?
Граница между информацией (данными) и знаниями нечеткая и зависит от воспринимающего субъекта. Слух или туманный намек может для умного человека стать знанием или источником знаний, а для не любящего думать и ворох информации останется просто информацией, без превращения в знания. Довольно часто можно встретить людей с хорошей памятью, но не имеющих привычки думать. Это показывает, что существует зависимость качества знаний от наличия и мощности процедур обработки.
Наилучший (вырожденный) пример информации, не превращающейся в знание, - иностранный язык. Наличие информации в иностранном тексте очевидно, однако в знание ее превратить невозможно, если не знать языка, или очень трудоемко, если пользоваться словарем.
Знакомый многим машинный переводчик - типичный пример автоматизированной процедуры извлечения знаний, дающей их существенный прирост, но при этом все равно крайне несовершенной. Переводчикчеловек - пример более совершенной процедуры извлечения знаний.
Откуда берется необходимость в извлечении знаний?
Зачастую текст и на родном языке может быть настолько же трудным для извлечения смысла, как и текст на чужом - например в силу смысловой загруженности, специальных терминов или большого объема.
Именно рост объемов компьютерной информации создает огромную потребность в извлечении знаний.
Вот хороший пример. Недавно автор вел переговоры с представителями одного из аналитических отделов российской спецслужбы, ситуация в котором довольно типична для сегодняшнего положения дел. Данный отдел получает в электронном виде до 10 Мбайт текстовой информации в день и должен дать свое заключение по ней. Десять мегабайт - это десять толстых книг, треть БСЭ или три "Войны и мира". А в отделе работает менее десяти аналитиков! Такая же проблема у отделов безопасности банков, аналитических служб частных компаний и проч.: информации слишком много, а обработать ее нужно обязательно в срок, и не дай Бог пропустить действительно критическую информацию.
Стоимость знаний.
В разведывательном деле любой кусочек даже тривиальной информации может стоить очень дорого, а в обычной жизни, и особенно в Internet, знания стоят намного дороже, чем просто информация.
Информации в Internet масса, и почти вся она бесплатна, а вот знаний немного. Показательно, что существует довольно много служб в Internet, продающих структурированные данные - аналитические обзоры, собранную и препарированную прессу и т. п. Эти же данные в разбросанном виде, по частям, практически на 100% доступны в Internet кому угодно - бесплатно. Т. е. деньги берутся этими службами именно за работу по превращению данных в знания.
Естественно, если знания настолько важны и стоят так дорого, их добычу хотелось бы автоматизировать. И человечество уже продвинулось по этому пути.
Мы дадим здесь краткий очерк возможностей компьютера по извлечению знаний из текстов. Если в других статьях данного номера речь в основном идет об управлении готовыми корпоративными, "внутренними", знаниями, то мы поговорим о внешних, неструктурированных, данных, преимущественно текстовых, и превращении их в знания.
2. Организация информации и доступ к ней.
Неверно думать, хотя к этому нас подталкивают творцы компьютерного мифа, что компьютеры - это мир совершенно новых идей и способов. По-настоящему новых идей всегда мало.
Нужно сказать, что и для организации доступа к текстовым данным человечество пока не придумало ничего существенно лучшего, чем оглавление с аннотациями глав (для поиска нужной информации "сверху") и предметный указатель - индекс по ключевым словам (для поиска нужного фрагмента непосредственно, "снизу").
Второстепенным способом организации служат также ссылки, превратившиеся в компьютерную эпоху в гипертекст и World Wide Web, однако также придуманные довольно давно.
Хорошие университетские учебники служат именно эффективной передаче знаний и поэтому издавна включают все эти способы организации знаний. Наиболее близкий автору пример - классический трехтомный курс математического анализа Фихтенгольца, в котором поиск нужной леммы или теоремы занимает секунды.
Рассмотрим компьютерные способы организации знаний и доступа к ним подробнее.
Поиск.
Поиск - это простейший способ доступа к текстовым данным, скорее подбор информации, чем извлечение знаний. Подробно поиск и поисковые машины обсуждались в прошлых номерах "Электронного офиса", а здесь мы только кратко перечислим основные "умения" поисковых машин: индексирование текстов и поиск по ключевым словам (по индексу); морфологический поиск - разбор и отождествление различных грамматических форм слов; логический язык запросов, позволяющий задавать условия на совместное вхождение ключевых слов в искомый документ; ранжирование по степени соответствия документа запросу.
Как видно из перечисленного, "классическая" поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю, что, кстати, может сделать и читатель печатного учебника, сравнив по предметному указателю, на каких страницах одновременно встречаются нужные ему термины.
Этой простой возможности при росте объемов текстовых баз становится совершенно недостаточно, и в последнее время поисковые машины начинают оснащаться средствами извлечения знаний. В первую очередь новшества появляются в поисковых машинах Internet, а затем постепенно проникают в средства поиска, входящие в корпоративные системы документооборота. Рассмотрим некоторые из этих новшеств.
Итеративный поиск: функция "найти похожие". Данная возможность позволяет постепенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие "о том же". Выполняется такой поиск путем превращения документа в поисковый запрос (естественно, с определенной степенью "сжатия", так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских - "Яндексом" (www.yandex.ru) и "Рамблером" (www.rambler.ru). Нужно сказать, что пока компьютерная наука продвинулась в этом вопросе не слишком далеко, и, как правило, работает данная функция плохо - часто находит совсем не то.
Поиск по выборке. если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в исполнении (нужно только запомнить предыдущую выборку) и реализована в большинстве популярных машин Internet, включая российские "Яндекс" и "Рамблер".
Запрос на естественном языке. В отличие от формальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме, как если бы он задавался человеку: "Как выйти замуж за миллионера?", "Скажи, где купить привод CD-ROM?" и т. д. Реализуется данная функция путем отбрасывания шумовых слов и выражений (как, скажи, где, за), выделения грамматической структуры запроса, подстановки синонимов и т. п.
Опять-таки, большинство поисковых машин декларирует подобную возможность, и пользователь действительно может ввести в строке запроса "естественный" набор слов, не разделяя их логическими операторами, однако зачастую эта функция фактически не работает. Например, "Рамблер" даже не отбрасывает "шумовых" слов и честно показывает все вхождения слов "как", "за" и подобных им, что, конечно, не имеет смысла и не нужно пользователю.
Тезаурусы. Тезаурусы (словари) служат для так называемого расширения запроса и включают синонимы, антонимы, родственные слова, "вышестоящие" и "нижестоящие" категории и понятия (военный-офицер-капитан).
Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока большинство поисковых машин тезауруса не имеют, в том числе и упоминавшиеся российские машины. Трудно сказать, чем это вызвано, видимо, высокой стоимостью и сложностью лексикографической (словарной) работы.
Поиск типа "где". Как видно из сказанного выше, поисковые машины отыскивают все упоминания нужного понятия в документах. В последнее время стало ясно, что пользователя часто интересует не только поиск "чего-нибудь" где угодно и в любом количестве, но и наоборот - поиск одного конкретного места, где находится уже известная ему вещь: сервер Internet или домашняя страница. Чтобы удовлетворить эту потребность, начали появляться особые поисковые машины - службы имен, позволяющие по "обычному" имени ресурса Internet найти точное место, где он расположен. В настоящий момент таких известных служб две: калифорнийская служба имен RealNames (www.realnames.com) и российская Национальная Служба Имен (www.names.ru).
Информация о работе Інформація та знання в процесі прийняття рішень