Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Что такое Корпус?
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.
Национальный корпус
имеет две важные особенности. Во-первых,
он характеризуется
Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.
Зачем нужен национальный
корпус?
Национальный корпус
предназначен в первую очередь для
обеспечения научных
С этой точки зрения
основными потребителями
В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с начала XVIII века), но также и (в меньшем объёме) переводные сочинения (параллельно с оригиналом), поэтические тексты, а также тексты, представляющие нелитературные формы современного русского языка: разговорную (записи устной речи, публичной и непубличной), диалектную.
Основной корпус
текстов
Основной корпус
— тексты, представляющие русский
литературный язык, — можно подразделить
на два главных массива, имеющих
свои особенности: это современные
письменные тексты (середина XX — начало
XXI века) и ранние тексты (середина XVIII —
середина XX века). По умолчанию поиск по
этим массивам ведётся одновременно, задать
хронологический диапазон (и иные параметры)
можно на странице установки пользовательского
подкорпуса.
Все тексты, входящие
в основной корпус, проходят процедуру
метаразметки и морфологической
разметки. Морфологическая разметка
осуществляется с помощью специальных
программ автоматического
Современные письменные
тексты
Представительный
корпус современных текстов с
морфологической разметкой
современная художественная
проза разных жанров и направлений
современная драматургия
мемуарно-биографическая
литература
журнальная публицистика
и литературная критика
газетная публицистика
и новости
научные, научно-популярные
и учебные тексты
религиозные и религиозно-философские
тексты
производственно-технические
тексты
официально-деловые
и юридические тексты
бытовые тексты (в
том числе тексты, не предназначенные
для публикации: личная переписка, дневники
и т.п.)
Тексты представлены
в определенной пропорции, отражающей
их долю в общем массиве современных
текстов. Так, доля художественных текстов
(включая драматургию и
Источниками текстов,
входящих в Корпус, для опубликованных
книжных, журнальных и газетных текстов,
как правило, являются выверенные электронные
версии, предоставляемые издателями
этих текстов (и используемые в Корпусе
с разрешения издателей).
Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.
Тексты XVIII—середины
XX вв. в Корпусе
Тексты XVIII—середины
XX вв. в Корпусе представляют также различные
жанры (художественная литература, научные
тексты, частная переписка, публицистика),
однако по причине доступности электронных
версий и современных переизданий процент
художественной литературы для этого
периода гораздо выше, чем для второй половины
XX в. Тексты, написанные до 1918 г., даются
в послереформенной орфографии; те особенности
оригинальной орфографии, которые сохраняются
в научных переизданиях, сохраняются и
в Корпусе.
Подробнее см.:
Савчук С. О, Сичинава
Д. В. Корпус русских текстов XVIII века
в составе НКРЯ: проблемы и перспективы
// Национальный корпус русского языка:
2006—2008. Новые результаты и перспективы.
СПб.: Нестор-История, 2009, 52—70.
Дич Н. Л. О текстах
XIX века в Национальном корпусе русского
языка // Национальный корпус русского
языка: 2003—2005. М.: Индрик, 2005, 89—93.
Оскольская С. А. Корпус
письменных текстов XIX века: сферы употребления
и жанровое разнообразие // Национальный
корпус русского языка: 2006—2008. Новые результаты
и перспективы. СПб.: Нестор-История, 2009,
46—51.
Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 27—45.
Глубоко аннотированный
(синтаксический) корпус
Данный фрагмент
Национального корпуса русского
языка содержит тексты, снабженные
морфо-синтаксической разметкой. Это
значит, что помимо морфологической
информации, приписанной каждому
слову текста, для каждого предложения
задана его синтаксическая структура.
Синтаксическая структура
предложения, используемая в глубоко
аннотированном корпусе (ГАК), представляет
собой дерево зависимостей, в узлах
которого стоят слова предложения,
а ветви помечены именами синтаксических
отношений. Такое представление
о синтаксической структуре предложения
восходит к лингвистической модели
«Смысл ⇔ Текст» И.А.Мельчука и А.К.Жолковского.
Окончательный перечень синтаксических
отношений, используемых в ГАК, а также
целый ряд конкретных лингвистических
решений, связанных с представлением синтаксической
структуры предложения, был выработан
в Лаборатории компьютерной лингвистики
Института проблем передачи информации
РАН. Силами коллектива этой Лаборатории
и составлен ГАК.
В отличие от морфологически
размеченного фрагмента Национального
корпуса русского языка, ГАК целиком
состоит из структур со снятой морфологической
и синтаксической омонимией.
Подробнее см.:
Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003—2005. М.:Индрик, 2005, 193—214.
Газетный корпус
(корпус современных СМИ)
Газетный корпус
(корпус современных СМИ) открыт в 2010
г. и охватывает статьи из средств
массовой информации 2000-х годов. Значительные
объёмы текстов СМИ, доступные в
электронном виде и предоставляющие
большой интерес для изучения
языковых изменений «в режиме реального
времени», не могут быть полностью
включены в основной корпус, поскольку
нарушили бы его репрезентативность,
как тематическую, так и хронологическую.
Для отдельного газетного корпуса
такого ограничения нет; по объёму он
сопоставим с основным.
В корпус газетных текстов
примерно в равном объёме включены
тексты семи СМИ — как печатных
газет ("Известия", "Советский
спорт", "Труд", "Комсомольская
правда"), так и электронных
агентств (РИА "Новости", РБК, "Новый
регион"). Предполагается постоянное
пополнение корпуса; каждый год выпуска
должен быть представлен одинаковым
объёмом текстов в несколько
десятков миллионов словоупотреблений.