Что такое корпус

Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат

Описание

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Скачать (86.00 Кб) Сколько стоит заказать работу?

Работа состоит из 1 файл

Что такое Корпус.docx

— 88.36 Кб (Скачать документ)

Лицо:

1p — первое лицо (украшаю)

2p — второе лицо (украшаешь)

3p — третье лицо (украшает)

Прочие признаки:

persn — личное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)

patrn — отчество (Иванович, Павловна)

famn — фамилия (Николаев, Волконская, Гумбольдт)

zoon — кличка животного (Шарик, Дочка)

0 — несклоняемое (шоссе, Седых)

Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.

Множественные разборы

В отдельных случаях в морфологической разметке допускается указание у одной и той же словоформы нескольких разборов, а именно:

Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).

Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА и т. п.)

Информация о нестандартности и особенностях записи

В корпусе со снятой грамматической омонимией предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. Отстутствие таких особенностей обозначается пометой normal.

anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)

distort («Искаженная форма») — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).

ciph («Цифровая запись») — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).

INIT («Инициал») — запись вида «заглавная буква с точкой» (М., Р.). В поле «Лексема» инициал не раскрывается; грамматические признаки не указываются.

abbr («Сокращение») — сокращенная запись (тов., гг., ч.). В поле «Лексема» сокращение (кроме инициалов) раскрывается, указывается грамматическая форма, соответствующая контексту. Специально отметим, что акронимы вроде ООН, вуз и усеченные слова вроде зав, зам, записываемые без точки и не раскрываемые при чтении, не получают пометы abbr и трактуются как обычные слова (склоняемые или несклоняемые).

Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета (bastard) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.

Корпусной словарь неоднословных лексических единиц

В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и .т. .п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.

Корпусной словарь неоднословных лексических единиц (оборотов)

Словарь позволяет быстро найти в корпусе так называемые неоднословные лексические единицы, а именно, устойчивые лексические обороты, выполняющие функции предлога, наречия, предикатива, союза, союзного слова, частицы, а также вводные обороты. При каждом обороте указано количество употреблений в НКРЯ (по данным на сентябрь 2008 г.).

Словарь составлен на основе базы данных частотных коллокаций НКРЯ с дополнениями из словарей Р.П.Рогожниковой (Толковый словарь сочетаний, эквивалентных слову, М., 2003) и МАС (Словарь русского языка в 4-х томах под ред. А.П.Евгеньевой, М., 1999).

Обороты в функции предлога

Наречные и предикативные обороты

Вводные обороты

Обороты в функции союза и союзного слова

Обороты в функции частиц

Синтаксически размеченный корпус русского языка: инструкция пользователя

Поиск по синтаксически размеченному корпусу

Вводные замечания

Данный фрагмент Национального корпуса русского языка содержит тексты, снабженные морфо-синтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура.

Синтаксическая структура предложения, используемая в синтаксически размеченном корпусе (СинТагРус), представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И.А.Мельчука и А.К.Жолковского. Окончательный перечень синтаксических отношений, используемых в СинТагРус, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен СинТагРус.

Разметка корпуса производилась в полуавтоматическом режиме. Сначала каждый текст обрабатывался морфологическим и синтаксическим анализаторами многоцелевого лингвистического процессора ЭТАП-3, разрабатываемого Лабораторией, в результате чего для каждого предложения строилась его морфологическая и синтаксическая структура. Затем полученный результат проверялся и при необходимости корректировался лингвистом.

В отличие от морфологически размеченного фрагмента Национального корпуса русского языка, СинТагРус целиком состоит из структур со снятой морфологической и синтаксической омонимией.

Это означает, что каждому слову текста сопоставляется одна, и только одна, морфологическая структура, а каждому предложению ставится в соответствие одна, и только одна синтаксическая структура.

Состав корпуса

СинТагРус состоит из текстов трех основных типов:

современная русская проза;

научно-популярные и общественно-политические статьи из журналов 1980-2004 годов;

тексты новостных лент, выпускаемых российскими агентствами новостей и публикуемых в сети Интернет.

Морфологическая структура

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, т.е. значения соответствующих морфологических категорий. Так, структура словоформы читавшуюся имеет следующий вид:

читавшуюся → ЧИТАТЬ, V, прич, несов, прош, страд, ед, жен, вин.

V здесь обозначает глагол, прич — причастие, несов — несовершенный вид, прош — прошедшее время, страд — страдательный залог, жен — женский род, ед — единственное число, вин — винительный падеж.

Ниже приводится полный список частей речи, русских морфологических категорий и характеристик, а также принятых для них условных обозначений.

В настоящее время этот список несколько отличается от набора категорий и характеристик, использованного в морфологически размеченной части Национального корпуса русского языка. В дальнейшем предполагается унифицировать оба списка.

1. Часть речи

S — Существительное: завод, я

A — Прилагательное: новый, мой, второй

V — Глагол:работать, нравиться

ADV — Наречие: плохо, отчасти

NUM — Числительное: пять, 2

PR — Предлог:в, между,вопреки

COM — Композит: авиа, гидро, агро и др. элементы, употребляющиеся в составе сложных слов

CONJ — Союз:и, что, как

PART — Частица:бы, ли, только

P — Слово-предложение — используется для интерпретации только двух слов да и нет, способных выполнять функцию целого предложения: Ты придешь сегодня или нет? (Ты придешь сегодня или ты не придешь сегодня?); — Ты придешь сегодня? — Да. (Ты придешь сегодня? — Я приду сегодня).

INTJ — Междометие:ого, увы, эх

NID — Слово, представляющее собой иноязычное вкрапление в русский текст или несловесную формулу: Берлинер Цайтунг, Berliner Zeitung, Щ243.

Местоимения не рассматриваются как особая часть речи, поскольку по морфологическим (способы словоизменения), а также по синтаксическим свойствам они примыкают к существительным (я, кто, который), прилагательным (мой, какой) или наречиям (там, куда).

Слова типа первый, сотый и т.д. традиционно определяемые как порядковые числительные, в корпусе считаются прилагательными.

2. Одушевленность

од — Одушевленное слово

неод — Неодушевленное слово

Категория одушевленности характеризует существительные, прилагательные, числительные, а также глагольные причастия. Для существительных одушевленность, будучи классифицирующей грамматической категорией, указывается всегда, для прилагательных, числительных и причастий — только в случае винительного падежа, когда они имеют разные окончания в зависимости от того, к какому существительному относятся. Эта разница релевантна для прилагательных мужского рода единственного числа: Вижу красивый [муж,ед,вин,неод] дом — Вижу красивого [муж,ед,вин,од] мальчика и для прилагательных множественного числа: Вижу красивые [мн,вин,неод] дома <избы, здания> — Вижу красивых [мн,вин,од] мальчиков <девочек, животных>

3. Род

муж — Мужской род

жен — Женский род

сред — Средний род

4. Число

ед — Единственное число

мн — Множественное число

5. Падеж

им — Именительный падеж

род — Родительный падеж

парт — Партитивный падеж: дайте чаю, кофейку, сахарку

дат — Дательный падеж

вин — Винительный падеж

твор — Творительный падеж

пр — Предложный падеж

местн — Местный падеж:в лесу, на снегу

зв — Звательный падеж:Боже, отче, Вань, мам

Партитивный, местный и звательный падежи указываются только для существительных, у которых эти формы графически отличаются, соответственно, от форм родительного, предложного и именительного падежей. Для других частей речи партитивный, местный и звательный падежи не постулируются. Ср.: горячего [род] чаю [парт], в глубоком [пр] снегу [местн], Боже[зв] мой [им].

6. Степень сравнения

срав — Сравнительная степень (прилагательных и наречий)

прев — Превосходная степень (прилагательных)

Положительная степень сравнения в явном виде не указывается: она характеризутся отсутствием характеристик срав и прев. Степень сравнения указывается только тогда, когда она образуется синтетически (лучше, сильнее, короче; лучший, наилучший, сильнейший, кратчайший): аналитические степени сравнения (более сильный, сильнее всех, сильнее всего) характеризуют словосочетания, а не отдельные словоформы.

Информация о работе Что такое корпус