Что такое корпус

Автор работы: Пользователь скрыл имя, 10 Декабря 2011 в 08:57, реферат

Описание

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Работа состоит из  1 файл

Что такое Корпус.docx

— 88.36 Кб (Скачать документ)

Что такое Корпус?

Корпус — это  информационно-справочная система, основанная на собрании текстов на некотором  языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования  и во всём многообразии жанров, стилей, территориальных и социальных вариантов  и т. п.

Национальный корпус создается лингвистами (специалистами  по так называемой корпусной лингвистике, быстро развивающейся современной  области языкознания) для научных  исследований и обучения языку. Большинство  крупных языков мира уже имеет  свои национальные корпуса (различающиеся  по полноте и уровню научной обработки  текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди  корпусов славянских языков выделяется Чешский национальный корпус, созданный  в Карловом университете Праги.

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в  данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и  что все эти тексты входят в  корпус по возможности пропорционально  их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни  миллионов словоупотреблений).Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная  характеристика корпуса; она отличает корпус от простых коллекций (или  «библиотек») текстов, в изобилии представленных в современном интернете, в том  числе и на русском языке (таких, как, по-видимому, наиболее известная  «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»). В настоящее время специалистами  создана и пополняется также  «Фундаментальная электронная библиотека»  русской классической литературы, ориентированная  на академический режим подачи текстов, максимально точное воспроизведение  авторитетных печатных изданий. Однако такие библиотеки в необработанном виде для научных исследований языка  пригодны очень ограниченно. Не следует  забывать также, что библиотеки создаются  теми, кому интересно в большей  степени содержание текстов, чем  их языковые качества. Для составителей Национального корпуса такие  факторы, как увлекательность или  полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной  библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для  изучения языка. А такими могут оказаться  и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и  т.п. — наряду, конечно, с классическими  произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем  выше научная и учебная ценность корпуса. В Национальном корпусе  русского языка в настоящее время  используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется  внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.

Зачем нужен национальный корпус? 

Национальный корпус предназначен в первую очередь для  обеспечения научных исследований лексики и грамматики языка, а  также тонких, но непрерывных процессов  языковых изменений, происходящих в  языке на протяжении сравнительно небольших  периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся  к указанным областям (лексика, грамматика, акцентология, история языка). Современные  компьютерные технологии многократно  упрощают и ускоряют процедуры лингвистической  обработки больших массивов текстов. Раньше исследователь мог лишь просматривать  тексты и вручную выписывать из них  нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла  обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это  означает, что в распоряжении исследователя  оказываются колоссальные массивы  текстов самого разного типа. Это  не замедлило сказаться на развитии наших знаний о языке: возможность  массовой — в том числе статистической — обработки текстов, недоступная  прежде, позволила обнаружить в структуре  и развитии языка такие закономерности, о существовании которых наука  раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные  описания грамматического строя  языков, а также авторитетные академические  словари — практически все  без исключений — должны составляться на основе корпусов этих языков. Учет корпусных  данных оказывается крайне желательным (если не строго обязательным) и при  многих других более специальных  научных исследованиях.  

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты  самого разного профиля. Однако круг пользователей корпуса вовсе  не ограничивается профессиональными  исследователями языка. Надежные статистические данные о языке определенной эпохи  или определенного автора могут  интересовать литературоведов, историков  и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и  для преподавания языка в качестве родного или иностранного; всё  больше учебников и учебных программ в наше время оказываются ориентированы  на корпус. Быстро и эффективно проверить  с помощью корпуса особенности  употребления незнакомого слова  или грамматической формы у авторитетных авторов сможет и иностранец, и  школьник, и учитель, и журналист, и редактор, и писатель. Таким  образом, национальный корпус обращен  ко всем, кто в силу профессии, по необходимости или из простой  любознательности ищет ответ на вопросы  об устройстве и функционировании языка, то есть фактически к большинству  образованных носителей этого языка  и ко всем, изучающим его в качестве иностранного.

В Национальный корпус русского языка включены прежде всего  прозаические оригинальные тексты, представляющие русский литературный язык (с начала XVIII века), но также и (в меньшем объёме) переводные сочинения (параллельно с оригиналом), поэтические тексты, а также тексты, представляющие нелитературные формы современного русского языка: разговорную (записи устной речи, публичной и непубличной), диалектную.

Основной корпус текстов 

Основной корпус — тексты, представляющие русский  литературный язык, — можно подразделить на два главных массива, имеющих  свои особенности: это современные  письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведётся одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.  

Все тексты, входящие в основной корпус, проходят процедуру  метаразметки и морфологической  разметки. Морфологическая разметка осуществляется с помощью специальных  программ автоматического морфологического анализа. В небольшой части основного  корпуса (объемом 6 млн словоупотреблений; в дальнейшем эта цифра будет  увеличена) произведено ручное снятие омонимии и дополнительная коррекция  результатов работы программы автоматического  морфологического анализа. Эта часть  образует так называемый корпус со снятой омонимией, который может  служить удобным полигоном для  тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для  исследований современной русской  морфологии, требующих повышенной точности поиска. Примеры из этого подкорпуса снабжаются в выдаче пометой [омонимия снята]. Тексты со снятой омонимией  снабжены автоматической (при помощи Грамматического словаря русского языка) акцентуацией. (В версии для  сохранения/печати ударения по умолчанию  сняты).

Современные письменные тексты 

Представительный  корпус современных текстов с  морфологической разметкой является основным и самым объёмным из подкорпусов. В этот корпус входят различные типы текстов, представляющие современный  русский литературный (письменный) язык: 

современная художественная проза разных жанров и направлений 

современная драматургия 

мемуарно-биографическая литература 

журнальная публицистика и литературная критика 

газетная публицистика и новости 

научные, научно-популярные и учебные тексты 

религиозные и религиозно-философские  тексты 

производственно-технические  тексты 

официально-деловые  и юридические тексты 

бытовые тексты (в  том числе тексты, не предназначенные  для публикации: личная переписка, дневники и т.п.) 

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных  текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%. 

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные  версии, предоставляемые издателями этих текстов (и используемые в Корпусе  с разрешения издателей). 

Ограничить поиск  современными текстами можно по параметру  «дата создания» на странице выбора подкорпуса.

Тексты XVIII—середины XX вв. в Корпусе 

Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры (художественная литература, научные тексты, частная переписка, публицистика), однако по причине доступности электронных версий и современных переизданий процент художественной литературы для этого периода гораздо выше, чем для второй половины XX в. Тексты, написанные до 1918 г., даются в послереформенной орфографии; те особенности оригинальной орфографии, которые сохраняются в научных переизданиях, сохраняются и в Корпусе. 

Подробнее см.: 

Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 52—70. 

Дич Н. Л. О текстах  XIX века в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 89—93. 

Оскольская С. А. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 46—51. 

Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 27—45.

Глубоко аннотированный (синтаксический) корпус 

Данный фрагмент Национального корпуса русского языка содержит тексты, снабженные морфо-синтаксической разметкой. Это  значит, что помимо морфологической  информации, приписанной каждому  слову текста, для каждого предложения  задана его синтаксическая структура.  

Синтаксическая структура  предложения, используемая в глубоко  аннотированном корпусе (ГАК), представляет собой дерево зависимостей, в узлах  которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление  о синтаксической структуре предложения  восходит к лингвистической модели «Смысл Текст» И.А.Мельчука и А.К.Жолковского. Окончательный перечень синтаксических отношений, используемых в ГАК, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен ГАК.  

В отличие от морфологически размеченного фрагмента Национального  корпуса русского языка, ГАК целиком  состоит из структур со снятой морфологической  и синтаксической омонимией.  

Подробнее см.: 

Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически  и семантически аннотированный корпус русского языка: современное состояние  и перспективы // Национальный корпус русского языка: 2003—2005. М.:Индрик, 2005, 193—214.

Газетный корпус (корпус современных СМИ) 

Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств  массовой информации 2000-х годов. Значительные объёмы текстов СМИ, доступные в  электронном виде и предоставляющие  большой интерес для изучения языковых изменений «в режиме реального  времени», не могут быть полностью  включены в основной корпус, поскольку  нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса  такого ограничения нет; по объёму он сопоставим с основным. 

В корпус газетных текстов  примерно в равном объёме включены тексты семи СМИ — как печатных газет ("Известия", "Советский  спорт", "Труд", "Комсомольская  правда"), так и электронных  агентств (РИА "Новости", РБК, "Новый  регион"). Предполагается постоянное пополнение корпуса; каждый год выпуска  должен быть представлен одинаковым объёмом текстов в несколько  десятков миллионов словоупотреблений. 

Информация о работе Что такое корпус