Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
С помощью вспомогательного
СинтО описываются имена людей,
содержащих инициалы (А. [Y] Пушкин [X], Александр
[X] С. [Y] Пушкин). Полные составные имена
людей представляются с помощью аппозитивного
СинтО (см. выше п. 2.3.1).
4.4. Количественно-вспомогательное
СинтО (колич-вспом). Последовательно,
справа налево связывает части
составного числительного или
составного порядкового
Не следует смешивать
количественно-вспомогательное
4.5. Соотносительное
СинтО (соотнос). Связывает части
разрывных парных союзов, предлогов
и частиц. Обычно связь идет
от первого (левого элемента) ко
второму: Если [X] всё так, то [Y] почему
ты не вмешался? Поезд идет туда от [X] пяти
до [Y] шести часов. Однако в случае парных
сочинительных союзов связь идет в обратном
направлении, справа налево — поскольку
одиночный сочинительный союз всегда
располагается между однородными членами:
Нет ни [Y2, соотнос] книг [X1], ни [Y1, сочин][X2][X3]
газет [Y3, соч-союзн]; Или <либо> [Y2, соотнос]
эта проклятая кобыла [X1], или <либо>[Y1,
сочин][X2][X3] я [Y3, соч-союзн]!
С помощью соотносительного
СинтО представляется и конструкция
типа что касается X, то Y: то [X] касается
меня, то [Y] я приду.
4.6. Эксплетивное
СинтО (эксплет). Х — указательные
местоимения–«прокладки» типа
4.7. Пролептическое
СинтО (пролепт). Соединяет слово
X, семантически неполнозначное, но занимающее
полноценную позицию в предложении (например,
позицию подлежащего), со словом или группой
слов Y, вынесенным вовне: Школа [Y] — это
[X] наш дом; Школа [Y] — вот [X] наш дом; Трудности
[Y] в работе — это [X] дело обычное; Сомнения
[Y], они [X] должны быть.
4.8. Эллиптическое
СинтО (эллипт). Служебное отношение,
предназначенное для
Некоторые соглашения, принятые при разработке корпуса.
1. Неоднословные
лексические единицы
Лексические единицы, состоящие более чем из одного графического слова, могут быть двух типов.
Выражения, компоненты
которых не изменяются и не могут
разделяться другими словами. Такие
единицы считаются
Выражения, которые естественно считать состоящими из нескольких слов (например, в тех случаях, когда эти слова могут изменяться или разделяться другими словами), но для которых не строится обычная синтаксическая структура. В этом случае все или некоторые слова в выражении соединяются вспомогательным СинтО. В следующих примерах устанавливается одна вспомогательная связь (от X к Y): сам [Y] себя [X]; изо [X] дня в [Y] день; так [Y] называемый [X]; все [Y] равно [X]; знать [Y] не знаю [X]; дурак[Y]-то он дурак [X].
2. Представление
синтаксического эллипсиса
В синтаксически
несвязных эллиптичных
Сходный прием применяется в случаях, когда в предложении «опущен» глагол некоторой размытой семантики, как в следующем тексте: Парочку морей бы еще в Сибирь. Африку можно бы ниже. Индия пусть. (Т. Толстая). Добавляется узел, аналогичный «фантому», ему приписываются наиболее естественные характеристики, а в качестве леммы пишется НЕОПР-ГЛАГОЛ (неопределенный глагол) и затем в скобках глагол, который является «естественной гипотезой». Так, в последнем примере после пусть добавляется узел с леммой НЕОПР-ГЛАГОЛ (ОСТАВАТЬСЯ).
3. Орфографические ошибки и другие отклонения от нормы
Опечатки (карова) исправляются прямо в исходном тексте.
Неправильное управление или согласование (оплатить за проезд). Не исправляется. Устанавливаются естественные синтаксические отношения.
Несуществующие слова,
ошибки в словообразовании (инциндент,
акселерант, энтот). Лемма остается
без изменений. Приписываются правильные
морфологические
Неправильные формы слов (хочете, ложит). В тексте все остается как есть. В структуре приписывается правильная лемма (ХОТЕТЬ, КЛАСТЬ) и правильные морфологические характеристики. Добавляется признак неправ.
Фонетические особенности (во-о-от такой, с-с-сволочь, гогод = ‘город’). Приписывается правильная лемма (ВОТ, СВОЛОЧЬ, ГОРОД) и правильные морфологические характеристики, а словоформа остается без изменений. Добавляется признак нестанд.
4. Иноязычные вкрапления
в русский текст
Словам, отсутствующим в русском языке, приписывается часть речи NID. Сюда относятся сокращения (типа М.Ч.Р.), иностранные слова (in situ, a priori, Berliner Zeitung (2 слова), Берлинер Цайтунг (2 слова), Щ273, +20 (градусов)). Если в таких выражениях больше одного слова (Berliner Zeitung, Берлинер Цайтунг), они соединяются вспомогательной связью справа налево. Если оба слова есть в словаре (Нью-Йорк Таймс, Арбат Престиж), то связь композитная.
5. Представление
прямой речи
Прямая речь может представляться двумя способами.
С помощью комплетивного отношения между авторскими словами и вершиной прямой речи. Этот способ всегда применяется, если авторские слова предшествуют прямой речи. (Он сказал [X]: “Поехали [Y, 1-компл]!”).
Если предложение
начинается с прямой речи — с
помощью вводного отношения, проводимого
слева направо от прямой речи к
авторским словам. Этот способ всегда
применяется, если авторские слова
разрывают прямую речь. (Это [X], — сказал
[Y, вводн] он, — очень странно).
В некоторых случаях выбор зависит от контекста. Например, для предложения “Поехали!” — сказал он, естественно выбрать вводное СинтО, если далее следует предложение “Я опаздываю!”, и 1-е комплетивное СинтО, если далее следует предложение И машина рванулась с места.
6. Предложение, открывающееся
союзом
Если предложение начинается с союза и может интерпретироваться как часть сложносочиненного или сложноподчиненного предложения, разбитого точкой или другим знаком препинания на два предложения, то союз считается вершиной синтаксической структуры. Примеры: И это уже само по себе настораживает; Если, конечно, он согласится.
7. Слова-предложения
Слово нет может относиться к одной из трех лексем.
Слово-предложение. Нет, я так не считаю; Я так не считаю, нет. Часть речи — P (так же мы поступаем со словом да в близких ситуациях).
Местоименный глагол, «местоглаголие»: Ты придешь или нет? Ты придешь, а я нет; Он капитан, а ты нет. Связь — такая, какая была бы с восстановленным глаголом (например, Ты придешь, а я не приду).
Полнозначный глагол, отрицательный вариант быть: У меня нет денег.
8. Конструкции типа
кандидат в президенты
В таких выражениях,
как кандидат в президенты, идти
в солдаты, существительное в
предложной группе имеет именительный
падеж (возможная альтернатива —
особый «винительный неодушевленный»
падеж одушевленных существительных
— в настоящее время не применяется).
Семантика
О лексико-семантической
информации в Корпусе
В настоящее время
в Корпусе реализована система
поиска по лексико-семантическим
При такой разметке
большинству слов в тексте приписывается
один или несколько семантических
и словообразовательных признаков,
например, 'лицо', 'вещество', 'пространство',
'скорость', 'движение', 'обладание', 'свойство
человека', 'диминутив', 'отглагольное имя'
и т.п. Используется фасетная классификация,
при которой одно слово может
попадать в несколько классов. На
первом этапе поиск осуществляется
по части имеющихся в словаре
признаков.
Разметка текстов
осуществляется автоматически с
помощью программы Semmarkup (автор А.
Е. Поляков) в соответствии с Семантическим
словарем Корпуса. Поскольку ручная обработка
семантически размеченных текстов очень
трудоемка, семантическая омонимия в Корпусе
не снимается: многозначным словам приписывается
несколько альтернативных наборов семантических
признаков.
В основу семантической
разметки положена система классификации
русской лексики, принятая в базе
данных "Лексикограф", которая
разрабатывалась с 1992 г. в Отделе
лингвистических исследований ВИНИТИ
РАН под рук. Е. В. Падучевой и
Е. В. Рахилиной. Для нужд Корпуса
был существенно увеличен словник,
расширен состав и усовершенствована
структура семантических
Словник семантического
словаря базируется на морфологическом
словаре системы DIALING (общим объемом
порядка 120 тыс. слов), представляющим собой
расширение Грамматического словаря русского
языка А. А. Зализняка. Текущая версия семантического
словаря включает слова знаменательных
частей речи: существительные, прилагательные,
числительные, местоимения, глаголы и
наречия.
При работе над семантической разметкой использовались сведения о значении слов и структуре семантических классов из следующих источников:
Словарь русского языка под ред. С. И. Ожегова
Словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой
Словарь русского языка в 4-х тт. под ред. А. П. Евгеньевой (МАС)
Словарь русского языка в 17-ти тт. (БАС)
Толковый словарь русского языка Д. Н. Ушакова
Русский семантический словарь под ред. Н. Ю. Шведовой, тт. 1-3
Толковый словарь русских глаголов под ред. Л. Г. Бабенко
Системный семантический словарь русского языка Л. М. Васильева
Новый объяснительный
словарь синонимов русского языка
под общим рук. акад. Ю. Д. Апресяна
(НОСС)
Структура лексико-семантической
информации
Лексико-семантическая
информация, приписываемая произвольному
слову в тексте, состоит из трех
групп помет:
разряд (например, имя
собственное, возвратное местоимение);
собственно лексико-
деривационные (словообразовательные)
характеристики (например, «диминутив»,
«отадъективное наречие»).
Лексико-семантическая
информация имеет различную структуру
для разных частей речи. Кроме того,
каждый из разрядов существительных -
имена предметные, непредметные и
собственные - имеет свою структуру
помет.
Собственно лексико-
таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий;
мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;
топология (топологический статус обозначаемого объекта) — для предметных имен;