Что такое корпус

Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат

Описание

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Работа состоит из  1 файл

Что такое Корпус.docx

— 88.36 Кб (Скачать документ)

С помощью вспомогательного СинтО описываются имена людей, содержащих инициалы (А. [Y] Пушкин [X], Александр [X] С. [Y] Пушкин). Полные составные имена людей представляются с помощью аппозитивного СинтО (см. выше п. 2.3.1). 

4.4. Количественно-вспомогательное  СинтО (колич-вспом). Последовательно,  справа налево связывает части  составного числительного или  составного порядкового прилагательного:  Х — правый элемент пары, Y — левый. Cр. триста [Y2] сорок [Х2][Y1] две [Х1] книги; триста [Y2] сорок [Х2][Y1] вторая [Х1] книга. 

Не следует смешивать  количественно-вспомогательное СинтО  с аддитивным (см. выше п.2.4.8), в котором  связь направлена  слева направо  и которое характеризует конструкции  существенно другой природы.  

4.5. Соотносительное  СинтО (соотнос). Связывает части  разрывных парных союзов, предлогов  и частиц. Обычно связь идет  от первого (левого элемента) ко  второму: Если [X] всё так, то [Y] почему ты не вмешался? Поезд идет туда от [X] пяти до [Y] шести часов. Однако в случае парных сочинительных союзов связь идет в обратном направлении, справа налево — поскольку одиночный сочинительный союз всегда располагается между однородными членами: Нет ни [Y2, соотнос] книг [X1], ни [Y1, сочин][X2][X3] газет [Y3, соч-союзн]; Или <либо> [Y2, соотнос] эта проклятая кобыла [X1], или <либо>[Y1, сочин][X2][X3] я [Y3, соч-союзн]! 

С помощью соотносительного СинтО представляется и конструкция  типа что касается X, то Y: то [X] касается меня, то [Y] я приду. 

4.6. Эксплетивное  СинтО (эксплет). Х — указательные  местоимения–«прокладки» типа то, тот; Y — подчинительный союз или вершина предложения, их «расшифровывающего»: предчувствие того [X], что [Y] дело кончится плохо; с того [X]  дня, как [Y] он уехал; То [X], зачем она уехала [Y], до сих пор остается загадкой. 

4.7. Пролептическое  СинтО (пролепт). Соединяет слово  X, семантически неполнозначное, но занимающее полноценную позицию в предложении (например, позицию подлежащего), со словом или группой слов Y, вынесенным вовне: Школа [Y] — это [X] наш дом; Школа [Y] — вот [X] наш дом; Трудности [Y]  в работе — это [X] дело обычное; Сомнения [Y], они [X] должны быть. 

4.8. Эллиптическое  СинтО (эллипт). Служебное отношение,  предназначенное для формального  соединения частей синтаксически  несвязного предложения. Используется  редко, поскольку опущенные элементы  в эллиптичных предложениях обычно  можно восстанавливать, вводя  узлы с признаком «фантом» (см. ниже).

Некоторые соглашения, принятые при разработке корпуса.

1. Неоднословные  лексические единицы 

Лексические единицы, состоящие более чем из одного графического слова, могут быть двух типов.

Выражения, компоненты которых не изменяются и не могут  разделяться другими словами. Такие  единицы считаются эквивалентными обычным словам и представляются в синтаксической структуре как  один узел. Примеры: предлог по отношению  к, союз коль скоро, частицы разве  что, что ни на есть, не то чтобы, нет-нет  да и, наречия пока что, как бы то ни было, чуть ли не, скрепя сердце, из рук  вон плохо, стало быть, то и дело, в обнимку, испокон веков.

Выражения, которые  естественно считать состоящими из нескольких слов (например, в тех  случаях, когда эти слова могут  изменяться или разделяться другими  словами), но для которых не строится обычная синтаксическая структура. В этом случае все или некоторые  слова в выражении соединяются  вспомогательным СинтО. В следующих  примерах устанавливается одна вспомогательная  связь (от X к Y): сам [Y] себя [X]; изо [X] дня в [Y] день; так [Y] называемый [X]; все [Y] равно [X]; знать [Y] не знаю  [X]; дурак[Y]-то он дурак [X].

2. Представление  синтаксического эллипсиса 

В синтаксически  несвязных эллиптичных предложениях опущенные слова восстанавливаются, и им приписывается дополнительный признак фантом. Например, в случае предложения Я купил чемодан, а он сумку между он и сумку  вставляется узел КУПИТЬ [V, сов, изъяв, прош, ед, муж, фантом] с пустым текстовым элементом. От этих фантомных слов проводятся все необходимые связи. Леммы в таких словах совпадают с теми, которые уже встретились в предложении, а отдельные морфологические характеристики могут меняться (так, в предложении Я купил чемодан, а она сумку характеристика муж в новом, «фантомном» глагольном узле купила заменяется на жен). Подчеркнем, что фантомные слова вводятся только в синтаксическую структуру предложения. Текстовый вид предложения остается неизменным.  

Сходный прием применяется  в случаях, когда в предложении  «опущен» глагол некоторой размытой семантики, как в следующем тексте: Парочку морей бы еще в Сибирь. Африку можно бы ниже. Индия пусть. (Т. Толстая). Добавляется узел, аналогичный  «фантому», ему приписываются наиболее естественные характеристики, а в  качестве леммы пишется НЕОПР-ГЛАГОЛ (неопределенный глагол) и затем  в скобках глагол, который является «естественной гипотезой». Так, в  последнем примере после пусть  добавляется узел с леммой НЕОПР-ГЛАГОЛ (ОСТАВАТЬСЯ).

3. Орфографические  ошибки и другие отклонения  от нормы

Опечатки (карова) исправляются прямо в исходном тексте.

Неправильное управление или согласование (оплатить за проезд). Не исправляется. Устанавливаются естественные синтаксические отношения.

Несуществующие слова, ошибки в словообразовании (инциндент, акселерант, энтот). Лемма остается без изменений. Приписываются правильные морфологические характеристики.

Неправильные формы  слов (хочете, ложит). В тексте все  остается как есть. В структуре  приписывается правильная лемма (ХОТЕТЬ, КЛАСТЬ) и правильные морфологические  характеристики. Добавляется признак  неправ.

Фонетические особенности (во-о-от такой, с-с-сволочь, гогод = ‘город’). Приписывается правильная лемма (ВОТ, СВОЛОЧЬ, ГОРОД) и правильные морфологические  характеристики, а словоформа остается без изменений. Добавляется признак  нестанд.

4. Иноязычные вкрапления  в русский текст  

Словам, отсутствующим  в русском языке, приписывается  часть речи NID. Сюда относятся сокращения (типа М.Ч.Р.), иностранные слова (in situ, a priori, Berliner Zeitung (2 слова), Берлинер Цайтунг (2 слова), Щ273, +20 (градусов)). Если в таких выражениях больше одного слова (Berliner Zeitung, Берлинер Цайтунг), они соединяются вспомогательной связью справа налево. Если оба слова есть в словаре (Нью-Йорк Таймс, Арбат Престиж), то связь композитная.

5. Представление  прямой речи 

Прямая речь может  представляться двумя способами.

С помощью комплетивного  отношения между авторскими словами  и вершиной прямой речи. Этот способ всегда применяется, если авторские  слова предшествуют прямой речи. (Он сказал [X]: “Поехали [Y, 1-компл]!”).

Если предложение  начинается с прямой речи — с  помощью вводного отношения, проводимого  слева направо от прямой речи к  авторским словам. Этот способ всегда применяется, если авторские слова  разрывают прямую речь. (Это [X], — сказал [Y, вводн] он, — очень странно). 

В некоторых случаях  выбор зависит от контекста. Например, для предложения “Поехали!” —  сказал он, естественно выбрать вводное  СинтО, если далее следует предложение  “Я опаздываю!”, и 1-е комплетивное СинтО, если далее следует предложение  И машина рванулась с места.

6. Предложение, открывающееся  союзом 

Если предложение  начинается с союза и может  интерпретироваться как часть сложносочиненного  или сложноподчиненного предложения, разбитого точкой или другим знаком препинания на два предложения, то союз считается вершиной синтаксической структуры. Примеры: И это уже само по себе настораживает; Если, конечно, он согласится.

7. Слова-предложения 

Слово нет может  относиться к одной из трех лексем.

Слово-предложение. Нет, я так не считаю; Я так не считаю, нет. Часть речи — P (так же мы поступаем со словом да в близких ситуациях).

Местоименный глагол, «местоглаголие»: Ты придешь или  нет? Ты придешь, а я нет; Он капитан, а ты нет. Связь — такая, какая  была бы с восстановленным глаголом (например, Ты придешь, а я не приду).

Полнозначный глагол, отрицательный вариант быть: У  меня нет денег.

8. Конструкции типа  кандидат в президенты 

В таких выражениях, как кандидат в президенты, идти в солдаты, существительное в  предложной группе имеет именительный падеж (возможная альтернатива —  особый «винительный неодушевленный»  падеж одушевленных существительных  — в настоящее время не применяется). 

Семантика

О лексико-семантической  информации в Корпусе 

В настоящее время  в Корпусе реализована система  поиска по лексико-семантическим признакам, основанная на частичной семантической  разметке текстов. 

При такой разметке большинству слов в тексте приписывается  один или несколько семантических  и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т.п. Используется фасетная классификация, при которой одно слово может  попадать в несколько классов. На первом этапе поиск осуществляется по части имеющихся в словаре  признаков. 

Разметка текстов  осуществляется автоматически с  помощью программы Semmarkup (автор А. Е. Поляков) в соответствии с Семантическим словарем Корпуса. Поскольку ручная обработка семантически размеченных текстов очень трудоемка, семантическая омонимия в Корпусе не снимается: многозначным словам приписывается несколько альтернативных наборов семантических признаков. 

В основу семантической  разметки положена система классификации  русской лексики, принятая в базе данных "Лексикограф", которая  разрабатывалась с 1992 г. в Отделе лингвистических исследований ВИНИТИ РАН под рук. Е. В. Падучевой и  Е. В. Рахилиной. Для нужд Корпуса  был существенно увеличен словник, расширен состав и усовершенствована  структура семантических классов, добавлены словообразовательные признаки. 

Словник семантического словаря базируется на морфологическом  словаре системы DIALING (общим объемом порядка 120 тыс. слов), представляющим собой расширение Грамматического словаря русского языка А. А. Зализняка. Текущая версия семантического словаря включает слова знаменательных частей речи: существительные, прилагательные, числительные, местоимения, глаголы и наречия. 

При работе над семантической  разметкой использовались сведения о значении слов и структуре семантических  классов из следующих источников:

Словарь русского языка  под ред. С. И. Ожегова 

Словарь русского языка  под ред. С. И. Ожегова и Н. Ю. Шведовой

Словарь русского языка  в 4-х тт. под ред. А. П. Евгеньевой (МАС)

Словарь русского языка  в 17-ти тт. (БАС)

Толковый словарь  русского языка Д. Н. Ушакова 

Русский семантический  словарь под ред. Н. Ю. Шведовой, тт. 1-3

Толковый словарь  русских глаголов под ред. Л. Г. Бабенко 

Системный семантический  словарь русского языка Л. М. Васильева 

Новый объяснительный словарь синонимов русского языка  под общим рук. акад. Ю. Д. Апресяна (НОСС)  

Структура лексико-семантической  информации 

Лексико-семантическая  информация, приписываемая произвольному  слову в тексте, состоит из трех групп помет: 

разряд (например, имя  собственное, возвратное местоимение);  

собственно лексико-семантические  характеристики (например, тематический класс лексемы, признаки каузативности, оценки);  

деривационные (словообразовательные) характеристики (например, «диминутив», «отадъективное наречие»). 

Лексико-семантическая  информация имеет различную структуру  для разных частей речи. Кроме того, каждый из разрядов существительных - имена предметные, непредметные и  собственные - имеет свою структуру  помет. 

Собственно лексико-семантические  пометы сгруппированы по следующим  полям:

таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий;

мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;

топология (топологический статус обозначаемого объекта) —  для предметных имен;

Информация о работе Что такое корпус