Автор работы: Пользователь скрыл имя, 21 Февраля 2013 в 22:16, реферат
Под термином Корпусная лингвистика традиционно понимают раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Лингвистический или Языковой корпус текстов - это объемный, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.
Глава II. Методология исследования заимствований с помощью лингвистического корпуса
2.1. 1 История создания Британского национального корпуса
Лингвистический корпус,
возможно, самый лучший способ описать
язык, используемый в нашей жизни. Термин
Корпусная лингвистика введён в науку
о языке в 60-х годах XX века в связи с развитием
практики создания корпусов, которому,
начиная с 80-х способствовало развитие
вычислительной техники. [http://wiki.syktsu.ru/
Под термином Корпусная лингвистика традиционно понимают раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Лингвистический или Языковой корпус текстов - это объемный, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. «Корпус текстов» включает в себя систему управления текстовыми и лингвистическими данными, или корпусного менеджера (корпус-менеджера) (англ. corpus manager), корпус является специализированной поисковой системой, приспособленной для получения статистической информации [Захаров 2005: 8].
Корпусная лингвистика имеет своим
предметом теоретические основы
и практические механизмы создания
и использования
Анализ литературы о корпусной
лингвистике позволил выделить примерный
общий алгоритм создания корпуса, который
позволяет более конкретно
1)Определение перечня источников.
2)Оцифровка текстов (
3)Предобработка текста. Все
тексты, полученные из разных
источников, проходят филологическую
выверку и корректировку.
4)Конвертирование и
5)Разметка текста. Текстам
и их компонентам
6)Корректировка результатов
7)Конвертирование размеченных
текстов в структуру
8)Обеспечение доступа к корпусу (CD-ROM, Internet) [Захаров 2005:33].
В 1963 году У. Френсис (W. Francis) и Г. Кучера (H. Kucera) впервые создали большой корпус текстов на машинном носителе (Brown Corpus) в Брауновском университете (США). Он состоял из пятисот двухтысячесловных печатных текстов американского варианта английского языка. Тексты были опубликованы в 1961 году и принадлежали пятнадцати наиболее массовым жанрам англоязычной печатной прозы США. Кроме текстов, к корпусу относятся материалы его первичной статистической обработки — частотный и алфавитно-частотный словарь, разнообразные статистические распределения. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.
Брауновский корпус и перспективы его развития и использования вызвали всеобщий интерес. В 1980 году в мире было предпринято несколько попыток создать корпуса большего размера, которые до сих пор существуют и используются для получения статистической информации, создания справочников, словарей, проведения лингвистических исследований, обработки естественного языка, преподавания английского языка.
По модели близкой к Брауновскому корпусу в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Упсалы, Швеция.
Размер
в один миллион слов
По этим
причинам, а также в связи с
ростом компьютерных мощностей,
Анализ классификации
корпусов отечественных и
1) Письменные, речевые и смешанные.
2) Русский, английский и т.д.
3) Одноязычные, двуязычные, многоязычные.
4) Литературные, диалектные,
разговорные,
5) Литературные, фольклорные, драматургические, публицистические.
6) Свободно доступные, коммерческие, закрытые.
7) Исследовательские и иллюстративные.
8) Динамические (мониторные), статические.
9) Размеченные, неразмеченные.
10) Морфологические,
11) Полнотекстовые, «фрагментнотекстовые».
12) Синхронические, диахронические.
13) Общие и одного писателя.
14) Центральные и архивные, ядерные и периферийные [Захаров 2005: 20].
К современным
корпусам английского языка
Из выше указанной классификации, можно предположить, что Британский национальный корпус является одноязычным, смешанным, свободно доступным, динамическим, размеченным и общим.
2.1.2. Возможность современных корпусов
Наличие большого количества
текстов в электронной форме существенно
облегчило задачу создания больших представительных
корпусов размером в десятки и сотни миллионов
слов, но не ликвидировало проблем: сбор
тысяч текстов, снятие проблем с авторскими
правами, приведение всех текстов в единую
форму, балансировка корпуса по темам
и жанрам отнимают много времени. [http://wiki.syktsu.ru/index.
Выбор Британского национального корпуса для данной работы обусловлен несколькими причинами:
-доступность. Достаточно зарегистрироваться и работать в нем. Однако, существует один недостаток - за 24 часа данный корпус может давать возможность только на определенное количество запросов. Это зависит от статуса регистрируемого, от простого пользователя- до профессора, выкладывающего на данный корпус свои публикации.
-наличие 100 миллионов
слов, что позволяет объективно
рассмотреть достаточное
- разнообразие опций- возможность выявить типы текстов, статей, в которых выбранное слово употребляется наиболее часто и сделать вывод на основе процентного соотношения.
Поиск в
корпусе данных позволяет по
любому слову построить
В современной
корпусной лингвистике
-количественный метод анализа, который позволяет выявить частотность определенных слов или словосочетаний и сравнить их с целью подведения итогов исследования. По количественным показателям стандартным образом вычисляется величина корпуса, она измеряется в текстовых словах и является важнейшей исходной (основной или условной) величиной для количественного анализа.
- качественный метод анализа заключается в том, что определенные слова классифицируются по частям речи и относят их к различным тематическим областям, например, компьютер, биржа, банковское дело. Качественный анализ предполагает выявление, классификацию и интерпретацию феноменов.
В данной
работе используются оба эти
метода, позволяющие проследить
и выявить частотность
Таким образом,
использование национального
2.2.Русскоязычные заимствования
2.2.1. Частотность
употребления в современном
Приведем статистику частотности употребления русскоязычных заимствований в современном английском языке, основываясь на материал Британского национального корпуса в период с 1980-1994гг. Использовав методологию исследования с помощью корпуса, стало ясно, что среди рассматриваемых слов есть те, которые употребляются чаще. Есть также слова, утратившее свое существование в современном мире (sevruga, kvass, copeck, kibitka, pood, sarafan, suslik, tsaritsa, Raskolnik, Shuba,ukase, artel,blin, druzhina, fieldsher , mazut, pirog, raznochinets, shchy, tchin, zakuska).
Можно предположить, что данные слова не встречаются в статьях Британского корпуса в связи с их неактуальностью, а так же с тем, что некоторые слова уже заменены на англоязычные. (blin-pancake, sarafan-dress, zakuska-snack). В данной работе были использованы только часто употребляемые слова. Из всего перечня заимствованных русскоязычных слов из разных периодов было выявлено 23 самых часто встречающихся слов (см.Приложение №2):
16 ВЕК
Tsar- 518
Kremlin –239
rouble –171
boyar –25
17 ВЕК
Cossack –77
steppe –46
18 ВЕК
yurt –30
19 век
vodka –300
Cadet –200
duma –110
dacha –42
troika –39
20 век
Soviet-10657
Resident-2044
intelligentsia –253
Bolshevik –218
glasnost –124
Presidium-124
sputnik-37
babushka –35
pogrom –34
komsomol –27
Gulag –27
Обращает на себя внимание то, что русских заимствований, выражающих понятия, связанные с бытовой стороной жизни, в английском языке фактически нет. При описании повседневного быта английские писатели и публицисты обходятся средствами своего языка, пользуясь либо существующими равнозначными лексическими эквивалентами, либо описательными приемами.
Информация о работе Методология исследования заимствований с помощью лингвистического корпуса