Что такое корпус

Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат

Описание

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Работа состоит из  1 файл

Что такое Корпус.docx

— 88.36 Кб (Скачать документ)

Лицо:

1p — первое лицо (украшаю)

2p — второе лицо (украшаешь)

3p — третье лицо (украшает)

Прочие признаки:

persn — личное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)

patrn — отчество (Иванович, Павловна)

famn — фамилия (Николаев, Волконская, Гумбольдт)

zoon — кличка животного (Шарик, Дочка)

0 — несклоняемое (шоссе, Седых) 

Часть указанных  помет (а именно, второй винительный  падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма  по+сравнительная степень, общий  род, зооним) присутствуют только в  корпусе со снятой грамматической омонимией.

Множественные разборы 

В отдельных случаях  в морфологической разметке допускается  указание у одной и той же словоформы нескольких разборов, а именно: 

Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в  качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).  

Ставится множественная  помета в случаях, когда однозначный  выбор лексемы или грамматического  значения в данном контексте невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА и т. п.)

Информация о нестандартности  и особенностях записи 

В корпусе со снятой грамматической омонимией предусмотрен ряд помет, указывающих на нестандартность  и/или особенности записи входящей в Корпус словоформы. Отстутствие  таких особенностей обозначается пометой  normal. 

anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)

distort («Искаженная форма»)  — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).

ciph («Цифровая запись»)  — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).

INIT («Инициал»)  — запись вида «заглавная буква с точкой» (М., Р.). В поле «Лексема» инициал не раскрывается; грамматические признаки не указываются.

abbr («Сокращение»)  — сокращенная запись (тов., гг., ч.). В поле «Лексема» сокращение (кроме инициалов) раскрывается, указывается грамматическая форма, соответствующая контексту. Специально отметим, что акронимы вроде ООН, вуз и усеченные слова вроде зав, зам, записываемые без точки и не раскрываемые при чтении, не получают пометы abbr и трактуются как обычные слова (склоняемые или несклоняемые). 

Кроме того, в корпусе  с неснятой грамматической омонимией  используется особая помета (bastard) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.

Корпусной словарь  неоднословных лексических единиц

В морфологической  разметке Корпуса свой разбор имеет  каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса  входит также словарь неоднословных  лексических единиц (оборотов) —  таких, как предложный оборот во имя, наречный оборот без запинки, вводный  оборот таким образом и .т. .п. Они  сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.

Корпусной словарь  неоднословных лексических единиц (оборотов) 

Словарь позволяет  быстро найти в корпусе так  называемые неоднословные лексические  единицы, а именно, устойчивые лексические  обороты, выполняющие функции предлога, наречия, предикатива, союза, союзного слова, частицы, а также вводные  обороты. При каждом обороте указано  количество употреблений в НКРЯ (по данным на сентябрь 2008 г.).  

Словарь составлен  на основе базы данных частотных коллокаций НКРЯ с дополнениями из словарей Р.П.Рогожниковой (Толковый словарь сочетаний, эквивалентных  слову, М., 2003) и МАС (Словарь русского языка в 4-х томах под ред. А.П.Евгеньевой, М., 1999).

Обороты в функции  предлога

Наречные и предикативные  обороты

Вводные обороты

Обороты в функции  союза и союзного слова

Обороты в функции  частиц

Синтаксически размеченный  корпус русского языка: инструкция пользователя

Поиск по синтаксически  размеченному корпусу 

Вводные замечания 

Данный фрагмент Национального корпуса русского языка содержит тексты, снабженные морфо-синтаксической разметкой. Это  значит, что помимо морфологической  информации, приписанной каждому  слову текста, для каждого предложения  задана его синтаксическая структура.  

Синтаксическая структура  предложения, используемая в синтаксически  размеченном корпусе (СинТагРус), представляет собой дерево зависимостей, в узлах  которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление  о синтаксической структуре предложения  восходит к лингвистической модели «Смысл Текст» И.А.Мельчука и А.К.Жолковского. Окончательный перечень синтаксических отношений, используемых в СинТагРус, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен СинТагРус.  

Разметка корпуса  производилась в полуавтоматическом режиме. Сначала каждый текст обрабатывался  морфологическим и синтаксическим анализаторами многоцелевого лингвистического процессора ЭТАП-3, разрабатываемого Лабораторией, в результате чего для каждого  предложения строилась его морфологическая  и синтаксическая структура. Затем  полученный результат проверялся и  при необходимости корректировался  лингвистом.  

В отличие от морфологически размеченного фрагмента Национального  корпуса русского языка, СинТагРус  целиком состоит из структур со снятой морфологической и синтаксической омонимией.  

Это означает, что  каждому слову текста сопоставляется одна, и только одна, морфологическая  структура, а каждому предложению  ставится в соответствие одна, и  только одна синтаксическая структура.

Состав корпуса 

СинТагРус состоит  из текстов трех основных типов:

современная русская  проза;

научно-популярные и  общественно-политические статьи из журналов 1980-2004 годов;

тексты новостных  лент, выпускаемых российскими агентствами  новостей и публикуемых в сети Интернет.

Морфологическая структура 

Морфологическая структура  словоформы представляет собой имя  лексемы, или лемму, которой приписывается  часть речи и морфологические  характеристики, т.е. значения соответствующих  морфологических категорий. Так, структура  словоформы читавшуюся имеет следующий  вид: 

читавшуюся →  ЧИТАТЬ, V, прич, несов, прош, страд, ед, жен, вин. 

V здесь обозначает глагол, прич — причастие, несов — несовершенный вид, прош — прошедшее время, страд — страдательный залог, жен — женский род, ед — единственное число, вин — винительный падеж.  

Ниже приводится полный список частей речи, русских  морфологических категорий и  характеристик, а также принятых для них условных обозначений.  

В настоящее время  этот список несколько отличается от набора категорий и характеристик, использованного в морфологически размеченной части Национального  корпуса русского языка. В дальнейшем предполагается унифицировать оба  списка.

1. Часть речи 

S — Существительное: завод, я 

A — Прилагательное: новый, мой, второй 

V — Глагол:работать, нравиться 

ADV — Наречие: плохо, отчасти 

NUM — Числительное: пять, 2 

PR — Предлог:в, между,вопреки 

COM — Композит: авиа, гидро, агро и др. элементы, употребляющиеся в составе сложных слов 

CONJ — Союз:и, что, как 

PART — Частица:бы, ли, только 

P — Слово-предложение — используется для интерпретации только двух слов да и нет, способных выполнять функцию целого предложения: Ты придешь сегодня или нет? (Ты придешь сегодня или ты не придешь сегодня?); — Ты придешь сегодня? — Да. (Ты придешь сегодня? — Я приду сегодня). 

INTJ — Междометие:ого, увы, эх 

NID — Слово, представляющее собой иноязычное вкрапление в русский текст или несловесную формулу: Берлинер Цайтунг, Berliner Zeitung, Щ243.  

Местоимения не рассматриваются  как особая часть речи, поскольку  по морфологическим (способы словоизменения), а также по синтаксическим свойствам  они примыкают к существительным (я, кто, который), прилагательным (мой, какой) или наречиям (там, куда). 

Слова типа первый, сотый  и т.д. традиционно определяемые как порядковые числительные, в корпусе  считаются прилагательными.

2. Одушевленность 

од — Одушевленное слово 

неод — Неодушевленное слово 

Категория одушевленности характеризует существительные, прилагательные, числительные, а также глагольные причастия. Для существительных  одушевленность, будучи классифицирующей грамматической категорией, указывается  всегда, для прилагательных, числительных и причастий — только в случае винительного падежа, когда они имеют  разные окончания в зависимости  от того, к какому существительному относятся. Эта разница релевантна для прилагательных мужского рода единственного  числа: Вижу красивый [муж,ед,вин,неод] дом — Вижу красивого [муж,ед,вин,од] мальчика и для прилагательных множественного числа: Вижу красивые [мн,вин,неод] дома <избы, здания>  — Вижу красивых [мн,вин,од] мальчиков <девочек, животных>

3. Род 

муж — Мужской  род 

жен — Женский  род 

сред — Средний  род

4. Число 

ед — Единственное число 

мн — Множественное  число

5. Падеж 

им — Именительный падеж 

род — Родительный  падеж 

парт — Партитивный  падеж: дайте чаю, кофейку, сахарку 

дат — Дательный  падеж 

вин — Винительный  падеж 

твор — Творительный падеж 

пр — Предложный падеж 

местн — Местный  падеж:в лесу, на снегу 

зв — Звательный падеж:Боже, отче, Вань, мам 

Партитивный, местный  и звательный падежи указываются  только для существительных, у которых  эти формы графически отличаются, соответственно, от форм родительного, предложного и именительного  падежей. Для других частей речи партитивный, местный и звательный падежи не постулируются. Ср.: горячего [род] чаю [парт], в глубоком [пр] снегу [местн], Боже[зв] мой [им].

6. Степень сравнения 

срав — Сравнительная  степень (прилагательных и наречий) 

прев — Превосходная степень (прилагательных) 

Положительная степень  сравнения в явном виде не указывается: она характеризутся отсутствием  характеристик срав и прев. Степень  сравнения указывается только тогда, когда она образуется синтетически (лучше, сильнее, короче; лучший, наилучший, сильнейший, кратчайший): аналитические  степени сравнения (более сильный, сильнее всех, сильнее всего) характеризуют  словосочетания, а не отдельные словоформы.

Информация о работе Что такое корпус