Методология исследования заимствований с помощью лингвистического корпуса

Автор работы: Пользователь скрыл имя, 21 Февраля 2013 в 22:16, реферат

Описание

Под термином Корпусная лингвистика традиционно понимают раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Лингвистический или Языковой корпус текстов - это объемный, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Работа состоит из  1 файл

ГЛАВА2.docx

— 40.66 Кб (Скачать документ)

Глава II. Методология исследования заимствований с помощью лингвистического корпуса

2.1. 1 История создания Британского национального корпуса

 

      Лингвистический корпус, возможно, самый лучший способ описать язык, используемый в нашей жизни. Термин Корпусная лингвистика введён в науку о языке в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х способствовало развитие вычислительной техники. [http://wiki.syktsu.ru/Корпусная_лингвистика http].

Под термином Корпусная лингвистика традиционно понимают раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Лингвистический или Языковой корпус текстов - это объемный, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. «Корпус текстов» включает в себя систему управления текстовыми и лингвистическими данными, или корпусного менеджера (корпус-менеджера) (англ. corpus manager), корпус является специализированной поисковой системой, приспособленной для получения статистической информации [Захаров 2005: 8].

Корпусная лингвистика имеет своим  предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных  для лингвистических исследований в интересах широкого круга пользователей.

Анализ литературы о корпусной  лингвистике позволил выделить примерный  общий алгоритм создания корпуса, который  позволяет более конкретно представить  работу корпусной лингвистики:

1)Определение перечня  источников.

2)Оцифровка текстов (преобразование  в компьютерную форму). В связи  с распространением компьютерной  техники и сети Интернет за  последнее время, тексты в электронном  виде для создания корпусов  вводятся вручную, сканируются,  принимаются в качестве авторских  копий, оригинал-макетов, предоставляемых  составителям корпусов издательствами, даров, обмена.

3)Предобработка текста. Все  тексты, полученные из разных  источников, проходят филологическую  выверку и корректировку. Также  осуществляется подготовка библиографического  и экстралингвистического описания  текста.

4)Конвертирование и графематический анализ. В ходе предварительной машинной обработки текстов осуществляются: перекодировка (если требуется), удаление или преобразование нетекстовых элементов (рисунки, таблицы), удаление переносов, обеспечение единообразного написания тире. Текст делится на его структурные составляющие.

5)Разметка текста. Текстам  и их компонентам приписывается  дополнительная информация (метаданные). Метаописание текстов корпуса заключается в содержательных элементах данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), и формальных (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ).

6)Корректировка результатов автоматической  разметки, исправление ошибок и  снятие неоднозначности (вручную  или полуавтоматически).

7)Конвертирование размеченных  текстов в структуру специализированной  лингвистической информационно-поисковой  системы (corpus manager).

8)Обеспечение доступа  к корпусу (CD-ROM, Internet) [Захаров 2005:33].

      В 1963 году У. Френсис (W. Francis) и Г. Кучера (H. Kucera) впервые создали большой корпус текстов на машинном носителе (Brown Corpus) в Брауновском университете (США). Он состоял из пятисот двухтысячесловных печатных текстов американского варианта английского языка. Тексты были опубликованы в 1961 году и принадлежали пятнадцати наиболее массовым жанрам англоязычной печатной прозы США. Кроме текстов, к корпусу относятся материалы его первичной статистической обработки — частотный и алфавитно-частотный словарь, разнообразные статистические распределения. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.

      Брауновский корпус и перспективы его развития и использования вызвали всеобщий интерес. В 1980 году в мире было предпринято несколько попыток создать корпуса большего размера, которые до сих пор существуют и используются для получения статистической информации, создания справочников, словарей, проведения лингвистических исследований, обработки естественного языка, преподавания английского языка.

      По модели  близкой к Брауновскому корпусу в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Упсалы, Швеция.

      Размер  в один миллион слов достаточен  для лексикографического описания  только самых частотных слов, поскольку слова и грамматические  конструкции средней частоты  встречаются по несколько раз  на миллион слов (со статистической  точки зрения язык является  большим набором редких событий). Так, каждое из таких обыденных  слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в Брауновском корпусе всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

      По этим  причинам, а также в связи с  ростом компьютерных мощностей,  способных работать с большими  объемами текстов, в 1980-е годы  в мире было предпринято несколько  попыток создать корпуса большего  размера. В Великобритании такими  проектами были Банк Английского  (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова. [http://wiki.syktsu.ru/index.php/Корпусная_лингвистика].

     Анализ классификации  корпусов отечественных и зарубежных  лингвистов позволяет выделить  следующие подтипы корпусов:

1) Письменные, речевые и  смешанные.

2) Русский, английский  и т.д.

3) Одноязычные, двуязычные, многоязычные.

4) Литературные, диалектные, разговорные, терминологические,  смешанные.

5) Литературные, фольклорные,  драматургические, публицистические.

6) Свободно доступные,  коммерческие, закрытые.

7) Исследовательские и  иллюстративные.

8) Динамические (мониторные), статические.

9) Размеченные, неразмеченные.

10) Морфологические, синтаксические, семантические и т.д.

11) Полнотекстовые, «фрагментнотекстовые».

12) Синхронические, диахронические.

13) Общие и одного писателя.

14) Центральные и архивные, ядерные и периферийные [Захаров 2005: 20].

      К современным  корпусам английского языка относятся  Британский национальный корпус (British National Corpus) [www.corpus.byu.edu/bnc/], один из наиболее известных корпусов английского языка. Это один из первых национальных корпусов, по образцу которого создавались многие современные корпуса различных языков. Объем корпуса 100 млн слов. [http://rusling.narod.ru/qqq_corp_nonslav_engl.htm].

     Из выше указанной классификации, можно предположить, что Британский национальный корпус является одноязычным, смешанным, свободно доступным, динамическим, размеченным и общим.

 

     2.1.2. Возможность современных корпусов

 

      Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. [http://wiki.syktsu.ru/index.php/Корпусная_лингвистика].

      Выбор Британского национального корпуса для данной работы обусловлен несколькими причинами:

-доступность. Достаточно зарегистрироваться и работать в нем. Однако, существует один недостаток - за 24 часа данный корпус может давать возможность только на определенное количество запросов. Это зависит от статуса регистрируемого, от простого пользователя- до профессора, выкладывающего на данный корпус свои публикации.

-наличие 100 миллионов  слов, что позволяет объективно  рассмотреть достаточное количество  текстов не только художественных, но и статьи журналов, газет,  а так же интервью радио  и телепередач.

- разнообразие опций- возможность выявить типы текстов, статей, в которых выбранное слово употребляется наиболее часто и сделать вывод на основе процентного соотношения.

      Поиск в  корпусе данных позволяет по  любому слову построить конкорданс  – список всех употреблений  данного слова в контексте  со ссылками на источник. Корпусы  могут использоваться для получения  разнообразных справок и статистических  данных о языковых и речевых  единицах. На основе корпусов  можно получить данные о частоте  словоформ, лексем, грамматических  категорий, проследить изменение  частот в различные периоды  времени, получить данные о  совместной встречаемости лексических  единиц. Представительный массив  языковых данных за определенный  период позволяет изучать динамику  процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов. [Захаров 2005: 8].

      В современной  корпусной лингвистике используются  два основных метода:

-количественный метод анализа, который позволяет выявить частотность определенных слов или словосочетаний и сравнить их с целью подведения итогов исследования. По количественным показателям стандартным образом вычисляется величина корпуса, она измеряется в текстовых словах и является важнейшей исходной (основной или условной) величиной для количественного анализа.

- качественный метод анализа заключается в том, что определенные слова классифицируются по частям речи и относят их к различным тематическим областям, например, компьютер, биржа, банковское дело. Качественный анализ предполагает выявление, классификацию и интерпретацию феноменов.

     В данной  работе используются оба эти  метода, позволяющие проследить  и выявить частотность употребления  русскоязычных заимствований в  разные периоды, помогают определить  типы статей и источников и  сделать выводы, в которых употребляются  выявленные русскоязычные слова.

      Таким образом,  использование национального британского  корпуса в качестве материала  исследования в данной выпускной  квалификационной работе объясняется  тем, что  корпус, его представительность  и разметка предоставляют условия  для проведения объективного  исследования использования исконно-русских  слов в английском языке в  определенный период времени,  в частности, с 1980 по 1993 годы. В  языковых корпусах представлены  тексты разных жанров, что, в  отличие от совокупности текстов  исключительно художественной литературы, традиционно используемой исследователями,  предоставляет доступ к разнообразию  современной речи.

 

 

2.2.Русскоязычные  заимствования

2.2.1. Частотность  употребления в современном английском  языке

 

     Приведем статистику частотности употребления русскоязычных заимствований в современном английском языке, основываясь на материал Британского национального корпуса в период с 1980-1994гг. Использовав методологию исследования с помощью корпуса, стало ясно, что среди рассматриваемых слов есть те, которые употребляются чаще. Есть также слова, утратившее свое существование в современном мире (sevruga, kvass, copeck, kibitka, pood, sarafan, suslik, tsaritsa, Raskolnik, Shuba,ukase, artel,blin, druzhina, fieldsher , mazut, pirog, raznochinets, shchy, tchin, zakuska).

      Можно предположить, что данные слова не встречаются в статьях Британского корпуса в связи с их неактуальностью, а так же с тем, что некоторые слова уже заменены на англоязычные. (blin-pancake, sarafan-dress, zakuska-snack). В данной работе были использованы только часто употребляемые слова. Из всего перечня заимствованных русскоязычных слов из разных периодов было выявлено 23 самых часто встречающихся слов (см.Приложение №2):

16 ВЕК

Tsar- 518

Kremlin –239

rouble –171

boyar –25

17 ВЕК

Cossack –77

steppe –46

18 ВЕК

yurt –30

19 век

vodka –300

Cadet –200

duma –110

dacha –42

troika –39

20 век

Soviet-10657

Resident-2044

intelligentsia –253

Bolshevik –218

glasnost –124

Presidium-124

sputnik-37

babushka –35

pogrom –34

komsomol –27

Gulag –27

     Обращает на себя внимание то, что русских заимствований, выражающих понятия, связанные с бытовой стороной жизни, в английском языке фактически нет. При описании повседневного быта английские писатели и публицисты обходятся средствами своего языка, пользуясь либо существующими равнозначными лексическими эквивалентами, либо описательными приемами.

Информация о работе Методология исследования заимствований с помощью лингвистического корпуса