Что такое корпус

Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат

Описание

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Работа состоит из  1 файл

Что такое Корпус.docx

— 88.36 Кб (Скачать документ)

d:impot — импоссибилитивы (несоизмеримый, недееспособный)

der:s — отыменные прилагательные (домашний, железный)

der:v — отглагольные прилагательные (ковкий, навязчивый, кочевой)

der:adv — отадвербиальные прилагательные (поздний, здешний)

Имена числительные (NUM, A-NUM)

Разряды

r:card — количественные (два, пять, десять)

r:card:pauc — числительные малого количества (два, три, четыре, оба, пол, полтора)

r:ord — порядковые (первый, второй, десятый)

Местоимения, в том  числе:

S-PRO — местоимения-существительные (он, кто)

A-PRO — местоимения-прилагательные (его, какой)

ADV-PRO — местоимения-наречия (где, как)

Разряды

r:pers — личные (я, он)

r:ref — возвратные (себя)

r:poss — притяжательные (мой, его, свой)

r:rel — вопросительные/относительные (кто, который, когда)

r:dem — указательные (этот, такой)

r:indet — неопределенные (некоторый, некогда)

r:neg — отрицательные (никакой, ничей)

r:spec — кванторные (определительные) (всякий, каждый, любой)

Глаголы (V)

Лексико-семантические  пометы

t:move — движение (бежать, дергаться, бросить, нести)

t:move:body — изменение положения тела, части тела (согнуть, нагнуться, примоститься)

t:put — помещение объекта (положить, вложить, спрятать)

t:impact — физическое воздействие (бить, колоть, вытирать)

t:impact:creat — создание физического объекта (выковать, смастерить, сшить)

t:impact:destr — уничтожение (взорвать, сжечь, зарезать)

t:changest — изменение состояния или признака (взрослеть, богатеть, расширить, испачкать)

t:be — бытийная сфера (жить, возникнуть, убить)

t:be:exist — существование (жить, происходить)

t:be:appear — начало существования (возникнуть, родиться, сформировать, создать)

t:be:disapp — прекращение существования (умереть, убить, улетучиться, ликвидировать, искоренить)

t:loc — местонахождение (лежать, стоять, положить)

t:loc:body — положение тела в пространстве (сидеть)

t:contact — контакт и опора (касаться, обнимать, облокотиться)

t:poss — посессивная сфера (иметь дать, подарить, приобрести, лишиться)

t:ment — ментальная сфера (знать, верить, догадаться, помнить, считать)

t:perc — восприятие (смотреть, слышать, нюхать, чуять)

t:psych — психическая сфера (гипнотизировать, сочувствовать, настроиться, терпеть)

t:psych:emot — эмоция (радоваться, обидеть)

t:psych:volit — воля (решить)

t:speech — речь (говорить, советовать, спорить, каламбурить)

t:behav — поведение человека (куролесить, привередничать)

t:physiol — физиологическая сфера (кашлять, икать)

t:weather — природное явление (бушевать, вьюжить)

t:sound — звук (гудеть, шелестеть)

t:light — свет (гаснуть, лучиться)

t:smell — запах (пахнуть, благоухать)

Каузация:

ca:caus — каузативные глаголы (показать, вертеть)

ca:noncaus — некаузативные глаголы (видеть, вертеться)

Служебные глаголы:

aux:phase — фазовые (начать, продолжать, прекратить)

aux:caus — служебные каузативные (вызвать, привести (к))

Словообразовательные  пометы

d:pref — приставочные глаголы (забегать, оглядеть)

d:semelf — семельфактивы (кивнуть, чихнуть, боднуть, качнуться)

d:impf — вторичные имперфективы (-ива-, -ва-, -а-) (выпивать, вбивать, прогонять)

Наречия (ADV)

Лексико-семантические  пометы

t:place — место (здесь, посередине)

t:dir — направление (туда, наверх)

t:dist — расстояние (далеко, близко)

t:dist:max — большое (далеко, вдали, вдалеке)

t:dist:min — малое (близко, вблизи)

t:time — время (тогда, поздно)

t:time:dur — длительность (вечно, недолго)

t:time:dur:max — большая (вечно, подолгу, всегда)

t:time:dur:min — малая (временно, недолго)

t:speed — скорость (быстро, медленно)

t:speed:max — большая (быстро, мигом)

t:speed:min — малая (медленно, неторопливо)

t:quant — количество (столько, достаточно)

t:quant:max — большое (много, навалом)

t:quant:min — малое (мало, чуть-чуть)

Оценка:

ev — оценка (беспечно, бойко)

ev:posit — положительная (бойко, безупречно)

ev:neg — отрицательная (бездарно, неловко)

Словообразовательные  пометы

d:dim — диминутивы (немножко, быстренько)

d:atten — аттенуативы (рановато, суховато)

der:s — отыменные наречия (вверху, дома)

der:v — отглагольные наречия (отродясь, стоймя)

der:a — отадъективные наречия (быстро, обычно)

Таксономия производящего  слова-прилагательного

der:a & dt:size — размер (высоко, коротко)

der:a & dt:size:max — большой (высоко, бесконечно)

der:a & dt:size:min — малый (коротко, низко)

der:a & dt:physq — физические свойства (твердо, плотно)

der:a & dt:physq:form — форма (плоско, прямо)

der:a & dt:physq:color — цвет (красно, добела)

der:a & dt:physq:taste — вкус (горько, вкусно)

der:a & dt:physq:smell — запах (смрадно, зловонно)

der:a & dt:physq:temper — температура (тепло, прохладно)

der:a & dt:physq:weight —  вес (тяжело, легко)

der:a & dt:humq — качества человека (внимательно, грубо) 

Параметры текстов

Что такое метаразметка текстов 

Существенной частью поискового аппарата Корпуса является так называемая метаразметка (или  метаописание) текстов, входящих в него. Под метаразметкой понимается приписывание тексту атрибутов, характеризующих  обстоятельства его создания, автора, тематику, жанровые особенности и  др. Метаразметка необходима прежде всего  для того, чтобы исследователь, пользующийся Корпусом, мог составлять по своему желанию произвольные выборки текстов  с заданными внешними параметрами: например, тексты мемуарного характера, тексты, написанные мужчинами, тексты, написанные авторами, родившимися между 1940 и 1960 гг., тексты автобиографий, тексты проповедей, тексты романов и повестей, и т. д., и т. п.  

Учитывая объем  и разнородность текстов Национального  корпуса, такая дифференциация представляется абсолютно необходимой: большинство  исследователей будут работать не с  Корпусом в целом, а с какими-то наиболее значимыми для целей  исследования подмассивами текстов (художественными, публицистическими, деловыми и т. п.). Кроме того, интересной задачей (которую  метаразметка также позволяет решать) является установление статистически  достоверных корреляций между теми или иными метатекстовыми параметрами (например, полом или возрастом  автора) и языковыми особенностями  текста. 

Пользователь Корпуса  может создать подмассив текстов  для поиска на странице «Мой корпус»  и в дальнейшем вести поиск  уже только по выбранному множеству  текстов. Ниже дается описание параметров текстов, используемое на странице «Мой корпус».

Структура метаразметки Национального корпуса 

В Национальном корпусе  используется сравнительно простая  система метаразметки, предназначенная  не для специалистов по корпусной  лингвистике, работающих с универсальной  международной классификацией, а  для рядового пользователя (в том  числе и для лингвиста, не знакомого  с терминологией корпусных исследований). Именно этот тип метаразметки непосредственно  отражается в интерфейсе, представленном сейчас на сайте Национального корпуса. 

Интерфейс для упрощенного  метатекстового поиска устроен так, что параметры текста объединяются в несколько блоков: 

I. «Паспорт текста»

Автор текста: имя, пол, дата рождения (или примерный возраст) 

Название текста 

Время создания текста (может указываться точно или  приблизительно; при поиске может  использоваться формат «<не> раньше такой-то даты» или «<не> позже  такой-то даты»). 

Объем текста (в количестве слов; при поиске может использоваться формат «<не> более такого-то объема»  или «<не> менее такого-то объема»). Дается пояснение: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.

II.1. Художественные тексты 

Жанр текста (включается также помета «нежанровая проза»): историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика, и т.п. 

Тип текста (при обозначении  типа широко используется самоидентификация  текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке): анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т.п. 

Хронотоп текста (приблизительное указание на место  и время описываемых в тексте событий; включается также помета «хронотоп  не определен»); в частности, различается  доисторический период, античность, Средние  века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е  гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период. Для  художественных текстов указание на хронотоп дается вместо указания на тематику (как более информативное). 

II.2. Нехудожественные тексты 

Сфера функционирования текста (параметр призван отражать в первую очередь языковые особенности): бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская. 

Тип текста (при обозначении  типа широко используется самоидентификация  текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке; включается также  помета «тип не определен»): автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, и т.п. 

Тематика текста (в принципе, у одного текста тем  может быть несколько; список открытый): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.

РРО678322

Информация о работе Что такое корпус