Что такое корпус

Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат

Описание

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Работа состоит из  1 файл

Что такое Корпус.docx

— 88.36 Кб (Скачать документ)

За предоставленные  тексты и помощь в их размещении в составе Корпуса приносим благодарность  компании Corpus Technologies и её сотрудникам Д. Левоняну и С. С. Рубакову, а также программистам Л. А. Алексеевскому и М. С. Кудинову.

Корпус параллельных текстов 

Особым типом корпуса  является так называемый параллельный корпус, в котором тексту на русском  языке сопоставлен перевод этого  текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен  его перевод на русский язык. Между  единицами оригинального и переводного  текста (обычно — между предложениями) с помощью специальной процедуры  устанавливается соответствие; эта  процедура называется выравниванием, а тексты, соответственно, выровненными. 

Выровненный параллельный корпус представляет собой важный инструмент для научных исследований (в том  числе и для исследований по теории и практике перевода); он может также  использоваться при обучении русскому и иностранным языкам. 

В настоящее время  на сайте Национального корпуса  размещены следующие параллельные выровненные корпуса: англо-русский, русско-английский, немецко-русский, пилотные украинско-русский и русско-украинский. 

Подробнее см.: 

Добровольский Д. О., Кретов А. А., Шаров С. А. Корпус параллельных текстов: архитектура и возможности  использования // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 263—296.

Корпус диалектных текстов 

Корпус диалектных текстов (открылся в 2005 г.) включает в  себя записи диалектной речи (в орфографии, приближенной к стандартной) из различных  регионов России. Полностью сохранена  морфологическая, синтаксическая и  лексическая специфика текстов. В подкорпусе имеются специальные  пометы для особенностей диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы. 

Подробнее см.: 

Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 215—232. 

Летучий А. Б. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, с. 114—128.

Корпус поэтических  текстов 

Корпус поэтических  текстов (открылся в 2006 г.) включает стихотворные произведения. Планируемый временной  диапазон — от XVIII в. до современности. В корпус пока не включены стихотворные драматические сочинения. Помимо обычной семантической и морфологической разметки (аналогичной той, что представлена в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая разметка. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, 5-стишиями, вольной рифмовкой, твёрдыми формами и т. п. 

Подробнее см.: 

Гришина Е. А., Корчагин К. М., Плунгян В. А., Сичинава Д. В. Поэтический  корпус в рамках НКРЯ: общая структура  и перспективы использования // Национальный корпус русского языка: 2006—2008. Новые  результаты и перспективы. СПб.: Нестор-История, 2009, 71—113.

Обучающий корпус русского языка 

Обучающий корпус русского языка (открылся в 2007 г.) — небольшой  корпус со снятой омонимией, ориентированный  на преподавание русского языка в  школе (отобраны произведения из школьной программы, изучаемых в школьном курсе функциональных стилей, размечены  словоизменительные типы и другие дополнительные морфологические признаки) 

Подробнее см.: 

Савчук С. О, Сичинава Д. В. Обучающий корпус русского языка  и его использование в преподавательской  практике // Национальный корпус русского языка: 2006—2008. Новые результаты и  перспективы. СПб.: Нестор-История, 2009, 317—334.

Корпус устной речи 

Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки  магнитофонных записей публичной  и частной устной речи, а также  транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1900-2000-е гг. 

Подробнее см.: 

Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 94—110. 

Гришина Е. А., Савчук С. О. Корпус устных текстов в НКРЯ: состав и структура // Национальный корпус русского языка: 2006—2008. Новые  результаты и перспективы. СПб.: Нестор-История, 2009, 129—149.

Акцентологический корпус 

Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие  информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая  дополнительной интерпретации) о месте  ударения в слове. Во-вторых, это  акцентуированные (в соответствии с  реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической  структуре слова. 

Подробнее см.: 

Гришина Е. А. Корпус «История русского ударения» // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 150—174.

Мультимедийный корпус 

Мультимедийный русский  корпус (МУРКО) (открылся в декабре 2010 г.) включает фрагменты кинофильмов 1930—2000-х годов. Они представлены в виде параллельных видеоряда, аудиоряда  и текстовой расшифровки звучащей речи, а также наблюдаемых в  кадре жестов. В мультимедийном корпусе. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.). В поисковой выдаче видеофрагменты доступны для просмотра и прослушивания. 

Подробнее см.: 

Гришина Е. А. Два  новых проекта для Национального  корпуса: мультимедийный подкорпус  и подкорпус названий // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 233—250. 

Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009

Морфология

Морфологический стандарт Национального корпуса русского языка 

Представление в  корпусе информации о морфологических  формах и значениях (часть речи, род, падеж, вид…) является самостоятельной  научной проблемой. Решения, принятые в корпусе, в основном опираются  на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).  

Однако специфика  корпуса как универсального средства исследования языка диктует некоторые  особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.

Структура морфологической  информации 

Морфологическая информация, приписываемая произвольному слову  в тексте, состоит из четырех «полей», или групп помет: 

Лексема, которой  принадлежит словоформа (указывается  «словарная запись» данной лексемы  и ее принадлежность к той или  иной части речи). 

Множество грамматических признаков данной лексемы, или словоклассифицирующие  характеристики (например, род для  существительного, переходность для  глагола). 

Множество грамматических признаков данной словоформы, или  словоизменительные характеристики (например, падеж для существительного, число  для глагола). 

Информация о нестандартности  грамматической формы, орфографических  искажениях и т. п.  

Морфологический разбор (или множество морфологических  разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается  в отдельном окне при щелчке на словоформе курсором мыши. 

В основу метаязыка  грамматических помет, ввиду предполагаемой широкой международной аудитории  пользователей Корпуса, положена система  сокращенных помет («тегов») на основе латинского алфавита. В то же время  предусмотрена возможность использования  при поиске традиционных названий категорий  на русском языке (в форме «грамматические  признаки»). 

Ниже приводим инвентарь  всех используемых в корпусе грамматических помет. Для пояснения в скобках  даются примеры.

Части речи

S — существительное (яблоня, лошадь, корпус, вечность)

A — прилагательное (коричневый, таинственный, морской)

NUM — числительное (четыре, десять, много)

A-NUM — числительное-прилагательное (один, седьмой, восьмидесятый)

V — глагол (пользоваться, обрабатывать)

ADV — наречие (сгоряча, очень)

PRAEDIC — предикатив (жаль, хорошо, пора)

PARENTH — вводное слово (кстати, по-моему)

S-PRO — местоимение-существительное (она, что)

A-PRO — местоимение-прилагательное (который, твой)

ADV-PRO — местоименное наречие (где, вот)

PRAEDIC-PRO — местоимение-предикатив (некого, нечего)

PR — предлог (под, напротив)

CONJ — союз (и, чтобы)

PART — частица (бы, же, пусть)

INTJ — междометие (увы, батюшки)

Значения грамматических категорий

Род:

m — мужской род (работник, стол)

f — женский род (работница, табуретка)

m-f — «общий род» (задира, пьяница)

n — средний род (животное, озеро)

Одушевленность:

anim — одушевленность (человек, ангел, утопленник)

inan — неодушевленность (рука, облако, культура)

Число:

sg — единственное число (яблоко, гордость)

pl — множественное число (яблоки, ножницы, детишки)

Падеж:

nom — именительный падеж (голова, сын, степь, сани, который)

gen — родительный падеж (головы, сына, степи, саней, которого)

dat — дательный падеж (голове, сыну, степи, саням, которому)

dat2 — дистрибутивный дательный ([по] многу, нескольку, стольку)

acc — винительный падеж (голову, сына, степь, сани, который/которого)

ins — творительный падеж (головой, сыном, степью, санями, которым)

loc — предложный падеж ([о] голове, сыне, степи, санях, котором)

gen2 — второй родительный падеж (чашка чаю)

acc2 — второй винительный падеж (постричься в монахи; по два человека)

loc2 — второй предложный падеж (в лесу, на оси́)

voc — звательная форма (Господи, Серёж, ребят)

adnum — счётная форма (два часа́, три шара́)

Краткая/полная форма:

brev — краткая форма (высок, нежна, прочны, рад)

plen — полная форма (высокий, нежная, прочные, морской)

Степень сравнения:

comp — сравнительная степень (глубже)

comp2 — форма «по+сравнительная степень» (поглубже)

supr — превосходная степень (глубочайший)

Вид:

pf — совершенный вид (пошёл, встречу)

ipf — несовершенный вид (ходил, встречаю)

Переходность:

intr — непереходность (ходить, вариться)

tran — переходность (вести, варить)

Залог:

act — действительный залог (разрушил, разрушивший)

pass — страдательный залог (только у причастий: разрушаемый, разрушенный)

med — медиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)

Форма (репрезентация) глагола:

inf — инфинитив (украшать)

partcp — причастие (украшенный)

ger — деепричастие (украшая)

Наклонение:

indic — изъявительное наклонение (украшаю, украшал, украшу)

imper — повелительное наклонение (украшай)

imper2 — форма повелительного наклонения 1 л. мн. ч. на -те (идемте)

Время:

praet — прошедшее время (украшали, украшавший, украсив)

praes — настоящее время (украшаем, украшающий, украшая)

fut — будущее время (украсим)

Информация о работе Что такое корпус