Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
d:impot — импоссибилитивы (несоизмеримый, недееспособный)
der:s — отыменные прилагательные (домашний, железный)
der:v — отглагольные прилагательные (ковкий, навязчивый, кочевой)
der:adv — отадвербиальные прилагательные (поздний, здешний)
Имена числительные (NUM, A-NUM)
Разряды
r:card — количественные (два, пять, десять)
r:card:pauc — числительные малого количества (два, три, четыре, оба, пол, полтора)
r:ord — порядковые (первый, второй, десятый)
Местоимения, в том числе:
S-PRO — местоимения-существительные (он, кто)
A-PRO — местоимения-прилагательные (его, какой)
ADV-PRO — местоимения-наречия (где, как)
Разряды
r:pers — личные (я, он)
r:ref — возвратные (себя)
r:poss — притяжательные (мой, его, свой)
r:rel — вопросительные/относительные (кто, который, когда)
r:dem — указательные (этот, такой)
r:indet — неопределенные (некоторый, некогда)
r:neg — отрицательные (никакой, ничей)
r:spec — кванторные (определительные) (всякий, каждый, любой)
Глаголы (V)
Лексико-семантические пометы
t:move — движение (бежать, дергаться, бросить, нести)
t:move:body — изменение положения тела, части тела (согнуть, нагнуться, примоститься)
t:put — помещение объекта (положить, вложить, спрятать)
t:impact — физическое воздействие (бить, колоть, вытирать)
t:impact:creat — создание физического объекта (выковать, смастерить, сшить)
t:impact:destr — уничтожение (взорвать, сжечь, зарезать)
t:changest — изменение состояния или признака (взрослеть, богатеть, расширить, испачкать)
t:be — бытийная сфера (жить, возникнуть, убить)
t:be:exist — существование (жить, происходить)
t:be:appear — начало существования (возникнуть, родиться, сформировать, создать)
t:be:disapp — прекращение существования (умереть, убить, улетучиться, ликвидировать, искоренить)
t:loc — местонахождение (лежать, стоять, положить)
t:loc:body — положение тела в пространстве (сидеть)
t:contact — контакт и опора (касаться, обнимать, облокотиться)
t:poss — посессивная сфера (иметь дать, подарить, приобрести, лишиться)
t:ment — ментальная сфера (знать, верить, догадаться, помнить, считать)
t:perc — восприятие (смотреть, слышать, нюхать, чуять)
t:psych — психическая сфера (гипнотизировать, сочувствовать, настроиться, терпеть)
t:psych:emot — эмоция (радоваться, обидеть)
t:psych:volit — воля (решить)
t:speech — речь (говорить, советовать, спорить, каламбурить)
t:behav — поведение человека (куролесить, привередничать)
t:physiol — физиологическая сфера (кашлять, икать)
t:weather — природное явление (бушевать, вьюжить)
t:sound — звук (гудеть, шелестеть)
t:light — свет (гаснуть, лучиться)
t:smell — запах (пахнуть, благоухать)
Каузация:
ca:caus — каузативные глаголы (показать, вертеть)
ca:noncaus — некаузативные глаголы (видеть, вертеться)
Служебные глаголы:
aux:phase — фазовые (начать, продолжать, прекратить)
aux:caus — служебные каузативные (вызвать, привести (к))
Словообразовательные пометы
d:pref — приставочные глаголы (забегать, оглядеть)
d:semelf — семельфактивы (кивнуть, чихнуть, боднуть, качнуться)
d:impf — вторичные имперфективы (-ива-, -ва-, -а-) (выпивать, вбивать, прогонять)
Наречия (ADV)
Лексико-семантические пометы
t:place — место (здесь, посередине)
t:dir — направление (туда, наверх)
t:dist — расстояние (далеко, близко)
t:dist:max — большое (далеко, вдали, вдалеке)
t:dist:min — малое (близко, вблизи)
t:time — время (тогда, поздно)
t:time:dur — длительность (вечно, недолго)
t:time:dur:max — большая (вечно, подолгу, всегда)
t:time:dur:min — малая (временно, недолго)
t:speed — скорость (быстро, медленно)
t:speed:max — большая (быстро, мигом)
t:speed:min — малая (медленно, неторопливо)
t:quant — количество (столько, достаточно)
t:quant:max — большое (много, навалом)
t:quant:min — малое (мало, чуть-чуть)
Оценка:
ev — оценка (беспечно, бойко)
ev:posit — положительная (бойко, безупречно)
ev:neg — отрицательная (бездарно, неловко)
Словообразовательные пометы
d:dim — диминутивы (немножко, быстренько)
d:atten — аттенуативы (рановато, суховато)
der:s — отыменные наречия (вверху, дома)
der:v — отглагольные наречия (отродясь, стоймя)
der:a — отадъективные наречия (быстро, обычно)
Таксономия производящего слова-прилагательного
der:a & dt:size — размер (высоко, коротко)
der:a & dt:size:max — большой (высоко, бесконечно)
der:a & dt:size:min — малый (коротко, низко)
der:a & dt:physq — физические свойства (твердо, плотно)
der:a & dt:physq:form — форма (плоско, прямо)
der:a & dt:physq:color — цвет (красно, добела)
der:a & dt:physq:taste — вкус (горько, вкусно)
der:a & dt:physq:smell — запах (смрадно, зловонно)
der:a & dt:physq:temper — температура (тепло, прохладно)
der:a & dt:physq:weight — вес (тяжело, легко)
der:a & dt:humq — качества
человека (внимательно, грубо)
Параметры текстов
Что такое метаразметка
текстов
Существенной частью
поискового аппарата Корпуса является
так называемая метаразметка (или
метаописание) текстов, входящих в него.
Под метаразметкой понимается приписывание
тексту атрибутов, характеризующих
обстоятельства его создания, автора,
тематику, жанровые особенности и
др. Метаразметка необходима прежде всего
для того, чтобы исследователь, пользующийся
Корпусом, мог составлять по своему
желанию произвольные выборки текстов
с заданными внешними параметрами:
например, тексты мемуарного характера,
тексты, написанные мужчинами, тексты,
написанные авторами, родившимися между
1940 и 1960 гг., тексты автобиографий, тексты
проповедей, тексты романов и повестей,
и т. д., и т. п.
Учитывая объем
и разнородность текстов
Пользователь Корпуса
может создать подмассив
Структура метаразметки
Национального корпуса
В Национальном корпусе
используется сравнительно простая
система метаразметки, предназначенная
не для специалистов по корпусной
лингвистике, работающих с универсальной
международной классификацией, а
для рядового пользователя (в том
числе и для лингвиста, не знакомого
с терминологией корпусных
Интерфейс для упрощенного
метатекстового поиска устроен так,
что параметры текста объединяются
в несколько блоков:
I. «Паспорт текста»
Автор текста: имя, пол,
дата рождения (или примерный возраст)
Название текста
Время создания текста
(может указываться точно или
приблизительно; при поиске может
использоваться формат «<не> раньше
такой-то даты» или «<не> позже
такой-то даты»).
Объем текста (в количестве слов; при поиске может использоваться формат «<не> более такого-то объема» или «<не> менее такого-то объема»). Дается пояснение: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.
II.1. Художественные
тексты
Жанр текста (включается
также помета «нежанровая проза»):
историко-приключенческая, криминальная,
любовная литература, сатира и юмор,
фантастика, и т.п.
Тип текста (при обозначении
типа широко используется самоидентификация
текста; список типов в принципе
открытый и дается в окне поиска
в алфавитном порядке): анекдот, боевик,
детектив, повесть, притча, рассказ, роман,
сказка, триллер, эпопея, эссе и т.п.
Хронотоп текста
(приблизительное указание на место
и время описываемых в тексте
событий; включается также помета «хронотоп
не определен»); в частности, различается
доисторический период, античность, Средние
века, Новое время, Россия: 19 век, Россия:
20 век (до 1914), Россия/СССР: война 1914–1918,
революция, гражданская война, 20-е
гг., 30-е гг., война 1941–1945, послевоенный
период (до 1952), 50-е гг., 60–80 гг., перестройка,
Россия: постсоветский период. Для
художественных текстов указание на
хронотоп дается вместо указания на тематику
(как более информативное).
II.2. Нехудожественные
тексты
Сфера функционирования
текста (параметр призван отражать
в первую очередь языковые особенности):
бытовая, официально-деловая, производственно-техническая,
публицистическая, учебно-научная, церковно-богословская.
Тип текста (при обозначении
типа широко используется самоидентификация
текста; список типов в принципе
открытый и дается в окне поиска
в алфавитном порядке; включается также
помета «тип не определен»): автобиография,
акт, дневник, договор, документ, закон,
заметка, заявление, инструкция, информационное
сообщение, кодекс, комментарий, листовка,
обзор, объявление, отзыв, отчет, очерк,
письмо, постановление, проповедь, путеводитель,
резюме, реклама, рекомендация, рецензия,
рецепт, сочинение, справочник, статья,
учебник, характеристика, хроника, эссе,
и т.п.
Тематика текста (в принципе, у одного текста тем может быть несколько; список открытый): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.
РРО678322