Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Лицо:
1p — первое лицо (украшаю)
2p — второе лицо (украшаешь)
3p — третье лицо (украшает)
Прочие признаки:
persn — личное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)
patrn — отчество (Иванович, Павловна)
famn — фамилия (Николаев, Волконская, Гумбольдт)
zoon — кличка животного (Шарик, Дочка)
0 — несклоняемое
(шоссе, Седых)
Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.
Множественные разборы
В отдельных случаях
в морфологической разметке допускается
указание у одной и той же словоформы
нескольких разборов, а именно:
Для прилагательных,
совпадающих с причастиями (открытый),
в неоднозначных случаях в
качестве исходной дается как лексема-прилагательное
(ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).
Ставится множественная
помета в случаях, когда однозначный
выбор лексемы или
Информация о нестандартности
и особенностях записи
В корпусе со снятой
грамматической омонимией предусмотрен
ряд помет, указывающих на нестандартность
и/или особенности записи входящей
в Корпус словоформы. Отстутствие
таких особенностей обозначается пометой
normal.
anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)
distort («Искаженная форма») — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).
ciph («Цифровая запись») — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).
INIT («Инициал») — запись вида «заглавная буква с точкой» (М., Р.). В поле «Лексема» инициал не раскрывается; грамматические признаки не указываются.
abbr («Сокращение»)
— сокращенная запись (тов., гг., ч.). В поле
«Лексема» сокращение (кроме инициалов)
раскрывается, указывается грамматическая
форма, соответствующая контексту. Специально
отметим, что акронимы вроде ООН, вуз и
усеченные слова вроде зав, зам, записываемые
без точки и не раскрываемые при чтении,
не получают пометы abbr и трактуются как
обычные слова (склоняемые или несклоняемые).
Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета (bastard) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.
Корпусной словарь
неоднословных лексических
В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и .т. .п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.
Корпусной словарь
неоднословных лексических
Словарь позволяет
быстро найти в корпусе так
называемые неоднословные лексические
единицы, а именно, устойчивые лексические
обороты, выполняющие функции предлога,
наречия, предикатива, союза, союзного
слова, частицы, а также вводные
обороты. При каждом обороте указано
количество употреблений в НКРЯ (по
данным на сентябрь 2008 г.).
Словарь составлен на основе базы данных частотных коллокаций НКРЯ с дополнениями из словарей Р.П.Рогожниковой (Толковый словарь сочетаний, эквивалентных слову, М., 2003) и МАС (Словарь русского языка в 4-х томах под ред. А.П.Евгеньевой, М., 1999).
Обороты в функции предлога
Наречные и предикативные обороты
Вводные обороты
Обороты в функции союза и союзного слова
Обороты в функции частиц
Синтаксически размеченный корпус русского языка: инструкция пользователя
Поиск по синтаксически размеченному корпусу
Вводные замечания
Данный фрагмент
Национального корпуса русского
языка содержит тексты, снабженные
морфо-синтаксической разметкой. Это
значит, что помимо морфологической
информации, приписанной каждому
слову текста, для каждого предложения
задана его синтаксическая структура.
Синтаксическая структура
предложения, используемая в синтаксически
размеченном корпусе (СинТагРус), представляет
собой дерево зависимостей, в узлах
которого стоят слова предложения,
а ветви помечены именами синтаксических
отношений. Такое представление
о синтаксической структуре предложения
восходит к лингвистической модели
«Смысл ⇔ Текст» И.А.Мельчука и А.К.Жолковского.
Окончательный перечень синтаксических
отношений, используемых в СинТагРус,
а также целый ряд конкретных лингвистических
решений, связанных с представлением синтаксической
структуры предложения, был выработан
в Лаборатории компьютерной лингвистики
Института проблем передачи информации
РАН. Силами коллектива этой Лаборатории
и составлен СинТагРус.
Разметка корпуса
производилась в
В отличие от морфологически
размеченного фрагмента Национального
корпуса русского языка, СинТагРус
целиком состоит из структур со снятой
морфологической и
Это означает, что каждому слову текста сопоставляется одна, и только одна, морфологическая структура, а каждому предложению ставится в соответствие одна, и только одна синтаксическая структура.
Состав корпуса
СинТагРус состоит из текстов трех основных типов:
современная русская проза;
научно-популярные и общественно-политические статьи из журналов 1980-2004 годов;
тексты новостных
лент, выпускаемых российскими
Морфологическая структура
Морфологическая структура
словоформы представляет собой имя
лексемы, или лемму, которой приписывается
часть речи и морфологические
характеристики, т.е. значения соответствующих
морфологических категорий. Так, структура
словоформы читавшуюся имеет следующий
вид:
читавшуюся →
ЧИТАТЬ, V, прич, несов, прош, страд, ед, жен,
вин.
V здесь обозначает глагол,
прич — причастие, несов — несовершенный
вид, прош — прошедшее время, страд — страдательный
залог, жен — женский род, ед — единственное
число, вин — винительный падеж.
Ниже приводится
полный список частей речи, русских
морфологических категорий и
характеристик, а также принятых
для них условных обозначений.
В настоящее время
этот список несколько отличается от
набора категорий и характеристик,
использованного в
1. Часть речи
S — Существительное:
завод, я
A — Прилагательное:
новый, мой, второй
V — Глагол:работать,
нравиться
ADV — Наречие: плохо,
отчасти
NUM — Числительное: пять,
2
PR — Предлог:в, между,вопреки
COM — Композит: авиа,
гидро, агро и др. элементы, употребляющиеся
в составе сложных слов
CONJ — Союз:и, что, как
PART — Частица:бы, ли,
только
P — Слово-предложение
— используется для интерпретации только
двух слов да и нет, способных выполнять
функцию целого предложения: Ты придешь
сегодня или нет? (Ты придешь сегодня или
ты не придешь сегодня?); — Ты придешь сегодня?
— Да. (Ты придешь сегодня? — Я приду сегодня).
INTJ — Междометие:ого,
увы, эх
NID — Слово, представляющее
собой иноязычное вкрапление в русский
текст или несловесную формулу: Берлинер
Цайтунг, Berliner Zeitung, Щ243.
Местоимения не рассматриваются
как особая часть речи, поскольку
по морфологическим (способы словоизменения),
а также по синтаксическим свойствам
они примыкают к
Слова типа первый, сотый и т.д. традиционно определяемые как порядковые числительные, в корпусе считаются прилагательными.
2. Одушевленность
од — Одушевленное
слово
неод — Неодушевленное
слово
Категория одушевленности характеризует существительные, прилагательные, числительные, а также глагольные причастия. Для существительных одушевленность, будучи классифицирующей грамматической категорией, указывается всегда, для прилагательных, числительных и причастий — только в случае винительного падежа, когда они имеют разные окончания в зависимости от того, к какому существительному относятся. Эта разница релевантна для прилагательных мужского рода единственного числа: Вижу красивый [муж,ед,вин,неод] дом — Вижу красивого [муж,ед,вин,од] мальчика и для прилагательных множественного числа: Вижу красивые [мн,вин,неод] дома <избы, здания> — Вижу красивых [мн,вин,од] мальчиков <девочек, животных>
3. Род
муж — Мужской
род
жен — Женский
род
сред — Средний род
4. Число
ед — Единственное
число
мн — Множественное число
5. Падеж
им — Именительный
падеж
род — Родительный
падеж
парт — Партитивный
падеж: дайте чаю, кофейку, сахарку
дат — Дательный
падеж
вин — Винительный
падеж
твор — Творительный
падеж
пр — Предложный
падеж
местн — Местный
падеж:в лесу, на снегу
зв — Звательный
падеж:Боже, отче, Вань, мам
Партитивный, местный и звательный падежи указываются только для существительных, у которых эти формы графически отличаются, соответственно, от форм родительного, предложного и именительного падежей. Для других частей речи партитивный, местный и звательный падежи не постулируются. Ср.: горячего [род] чаю [парт], в глубоком [пр] снегу [местн], Боже[зв] мой [им].
6. Степень сравнения
срав — Сравнительная
степень (прилагательных и наречий)
прев — Превосходная
степень (прилагательных)
Положительная степень сравнения в явном виде не указывается: она характеризутся отсутствием характеристик срав и прев. Степень сравнения указывается только тогда, когда она образуется синтетически (лучше, сильнее, короче; лучший, наилучший, сильнейший, кратчайший): аналитические степени сравнения (более сильный, сильнее всех, сильнее всего) характеризуют словосочетания, а не отдельные словоформы.