Компьютерный перевод как разновидность перевода

Автор работы: Пользователь скрыл имя, 30 Ноября 2011 в 19:12, курсовая работа

Описание

Цель данной работы – определение того, насколько можно использовать современные программные продукты для осуществления перевода, а также выявление наиболее перспективных, на наш взгляд, направлений исследований в области его автоматизации.

Содержание

Введение
Глава I. Машинный перевод………………………………………………… 5
1.1. История школы машинного перевода……………….................... 7
1.2. Классификация систем машинного перевода………………….. 10
Вывод по Главе I ………………………………………………………….… 21
Глава II. Система МП PROMT XT…………………………………………..22
2.1. Общая характеристика системы………………………………….22
2.2. Применение системы МП PROMT XT на практике…………….26
Вывод по Главе II ………………………………………………………….…33
Заключение…………………………………………………………………... 34
Список литературы …………………………………

Скачать (44.57 Кб) Сколько стоит заказать работу?

Работа состоит из 1 файл

курсовая.doc

— 193.50 Кб (Скачать документ)

How much is that X ? à Was kostet dies?
red umbrella à der rote Regenschirm
small camera à die kleine Kamera

Важно отметить, что правила перевода используемые в этом методе, отличаются от простых грамматических правил классических методов. Перевод, основанный на примерах, лучше всего подходит для таких явлений как фразовые глаголы. Значения фразовых глаголов сильно зависит от контекста. Фразовые глаголы очень часто встречаются в разговорном английском языке. Они состоят из глагола с предлогом или наречием. Смысл такого выражения невозможно получить из смыслов составляющих частей. Классические методы перевода в данном случае неприменимы.

Этот метод перевода можно использовать для определения контекста предложений.

Что касается двуязычных корпусов текста, возникает ожидаемый вопрос, где брать такие пары. Примерами двуязычных корпусов текстов можно назвать парламентские отчеты в Канаде, Гонконге и других странах. Тексты представляют собой протоколы дебатов в парламенте. Кроме того, хорошим примером являются официальные документы Европейского экономического сообщества. Они издаются на 11 языках. Организация объединенных наций публикует документы на нескольких языках [интернет-ссылка: 17].

Статистический машинный перевод — это метод машинного перевода, использующий сравнение больших объёмов языковых пар (так же как и машинный перевод основанный на примерах).

Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения с использованием данных из двуязычных корпусов текстов. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст.

В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки. Читатель предполагает, что статья, написанная на английском языке, на самом деле является статьей написанной на английском, но текст зашифрован (или искажен шумом). При таком подходе становится понятно почему, чем дальше языки, тем лучше работает статистический метод, по сравнению с классическими подходами.

Модель Шеннона состоит из пяти элементов: источника информации, передатчика, канала передачи, приемника и конечной цели, расположенных линейно.

Передатчик кодирует информацию, полученную от источника, и передает ее на канал. По каналу передачи, на который действует шум — помехи любого рода, искажающие информацию, данные поступают в приемник, где они декодируются и передаются к конечной цели.

Из-за шума полученная приемником информация в общем случае не совпадает с информацией, отправленной передатчиком. Однако, согласно Шеннону, создавая избыточную информацию, исходные данные можно восстановить со сколь угодно высокой вероятностью. Для обнаружения ошибок используются контрольные суммы, для их исправления — специальные корректирующие коды (при условии, что степень шума не превосходит некоторой границы).

Стоит отметить, что любая информация в некотором роде избыточна [Кузнецов, 1956:89]. Человеческая речь избыточна — чтобы уловить смысл предложения, зачастую необязательно слышать его полностью. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться. Если предложение в целом понятно, но есть несколько незнакомых слов, то не обычно не трудно догадаться об их значении.

Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.

Задача такого декодирования заключается в том, чтобы, при данном сообщении, найти исходное сообщение, которому соответствует наибольшая вероятность. Для этого же необходимо для любых двух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение.

В данном случае нужна модель источника (модель языка) и модель канала (модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразы при условии фразы на переводном языке.

В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель). Согласно этой модели, правильность выбора того или иного слова зависит только от предшествующих (n-1) слов [интернет-ссылка: 16].

На сегодняшний день используются более сложные модели перевода. Многие из них являются коммерческими тайнами компаний разработчиков таких систем.

Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации.

В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут же определяются вероятности каждого n-грамма.

В режиме эксплуатации, для фразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.

Вывод по Главе I

Машинный перевод — это эффективное средство для просмотра и поиска информации на иностранном языке, и именно эта функция является главной при работе в Internet. В результате настройки на предметную область и интеграции с другими программами обработки документов средство машинного перевода позволяет автоматизировать получение перевода. Это уникальный гуманитарный инструмент, позволяющий преодолевать проблемы общения в системах, работающих на разных языках. Многие разработчики осознали: при создании программы машинного перевода кроме хорошо реализованной лингвистики необходима достойная программная реализация.

Имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории: полностью автоматический перевод, автоматизированный машинный перевод, выполняемый при участии человека, и перевод, осуществляемый человеком с использованием компьютера.

Глава II. Система МП PROMT XT

2.1. Общая характеристика системы

В основу программных продуктов компании PROMT поставлено решение следующих фундаментальных проблем:

Во-первых, ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания больших словарей для систем.

Во-вторых, известно, что система должна переводить такие предложения: ПРИВЕТ, КАК ДЕЛА? Значит, еще одна проблема - научить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит есть еще одна проблема: записать все эти правила в виде программы [интернет-ссылка: 17].

Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы. Для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для всех языков, с которыми системы умеют обращаться. Оно содержит 800 типов словоизменений для русского языка, более 300 типов, как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя - создателя словаря. Эта система фактически автоматизирует процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей [Сокирко, 2002: 137].

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, как это требуется в спеллерах или электронных словарях, она необходима для выполнения программой собственно процедур перевода.

Однако при разработке систем PROMT впервые был применен фактически революционный подход, который и позволил получить впечатляющие результаты. Системы перевода семейства PROMT - это системы, спроектированные на основе не лингвистических, а кибернетических методов.

Вместо принятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с "объектно-ориентированной" организацией, основанной на иерархии обрабатываемых компонентов предложения. Это позволило сделать системы PROMT устойчивыми и открытыми.

Кроме того, такой подход дал возможность применения различных формализмов для описания перевода разных уровней. В системах работают и сетевые грамматики, близкие по типу к расширенным сетям переходов, и процедурные алгоритмы заполнения и трансформаций фреймовых структур для анализа сложных предикатов.

Описание лексической единицы в словарной статье, которое фактически не ограничено по размерам и может содержать множество различных признаков, тесно взаимосвязано со структурой алгоритмов системы и структурировано не на основе извечной антитезы синтаксис - семантика, а на основе уровней компонентов текста.

При этом системы могут работать и с не полностью описанными словарными статьями, что является важным моментом при открытии словарей для пользователя, от которого нельзя требовать тонкого обращения с лингвистическим материалом.

Первая система машинного перевода, выпущенная компанией PROMT в 1991 году, переводила с английского языка на русский специализированные тексты по программному обеспечению. Она использовала небольшой словарь - около 17 тыс. слов и выражений, работала в среде ДОС и не имела средств настройки для пользователя. Но уже эта первая система была правильно устроена, и нынешняя технология разработки алгоритмов машинного перевода, применяемая в компании PROMT, не претерпела значительных изменений. Напротив, найденный тогда подход оказался очень плодотворным для самых разных языков.

Вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем, и принято делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае - разработать сам метаязык и описать естественный язык в соответствующих терминах [Каничев, 1998:35].

Информация о работе Компьютерный перевод как разновидность перевода