Автор работы: Пользователь скрыл имя, 30 Ноября 2011 в 19:12, курсовая работа
Цель данной работы – определение того, насколько можно использовать современные программные продукты для осуществления перевода, а также выявление наиболее перспективных, на наш взгляд, направлений исследований в области его автоматизации.
Введение
Глава I. Машинный перевод………………………………………………… 5
1.1. История школы машинного перевода……………….................... 7
1.2. Классификация систем машинного перевода………………….. 10
Вывод по Главе I ………………………………………………………….… 21
Глава II. Система МП PROMT XT…………………………………………..22
2.1. Общая характеристика системы………………………………….22
2.2. Применение системы МП PROMT XT на практике…………….26
Вывод по Главе II ………………………………………………………….…33
Заключение…………………………………………………………………... 34
Список литературы …………………………………
В 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
Практическое
применение принципов смыслового анализа
текстов потребовалось при
Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты [Читалина, 1975:278].
Современные коммерческие продукты машинного перевода предлагают отечественные фирмы: "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ; ПРОМТ, образованная в 1991 г.; "Медиа Лингва".
История
машинного перевода насчитывает
немногим более 50 лет. За это время
сменилось несколько поколений
систем машинного перевода - от первых
программ, использовавших ограниченные
ресурсы универсальных компьютеров первого
поколения до современных коммерческих
продуктов, использующих мощные ресурсы
серверов и персональных компьютеров,
включая ПК, в которых можно размещать
карманные словари, а также компьютерные
сети.
1.2. Классификация систем машинного перевода
Системы машинного перевода могут использовать метод перевода основанный на лингвистических правилах. Наиболее подходящие слова из исходного языка просто заменяются словами переводного языка.
Как правило, метод перевода основанный на правилах использует символическое представление (посредника), на основе которого создается текст на переводном языке. А если учитывать природу посредника, то можно говорить об интерлингвистическом машинном переводе или трансфертном машинном переводе. Эти методы требуют очень больших словарей с морфологической, синтаксической и семантической информацией и большого набора правил.
Если у системы машинного перевода будет достаточное количество данных, то можно получить перевод хорошего качества. Основная трудность заключается в формировании этих данных. Например, большие корпуса текста необходимые для статистических методов перевода, для перевода основанного на грамматике оказываются недостаточными. Более того, для последних требуется дополнительное задание грамматики.
Для перевода родственных языков (русский, украинский) может оказаться достаточной простая замена слов.
Современные системы машинного перевода делят на три большие группы:
Системы машинного перевода основанные на правилах – общий термин, который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках в основном получены из (двуязычных) словари и грамматики, охватывающих основные семантические, морфологические, синтаксические и закономерности каждого языка. Такой подход к машинному переводу еще называют классическим.
На основе этих данных исходный текст последовательно, по предложениям, преобразуется в текст перевода. Часто, такие системы противопоставляют системам машинного перевода основанных на примерах.
Основной принцип работы таких систем – связь структуры входного и выходного предложения. Перевод при этом получается не особенно хорошего качества. Но на простых примерах работает.
Перевод с английского на немецкий будет выглядеть так:
A girl eats an apple. à Ein Madchen isst einen Apfel.
Эти системы делятся на три группы:
Системы пословного перевода используются сейчас крайне редко из-за низкого качества перевода. Слова исходного текста преобразуются в слова переводного текста. Часто такое преобразование происходит без лемматизации и морфологического анализа. Это самый простой метод машинного перевода. Он используется для перевода длинных списков слов (например, каталогов).
В основе трансфертных систем лежит та же идея, что и - в системах интерлингвистических. Для перевода необходимо иметь посредника, который в себе несет смысл переводимого выражения. В интерлингвистических системах посредник не зависит от пары языков, в то время как в трансфертных – зависит.
Трансфертные системы работают по очень простому принципу: к входному тексту применяются правила, которые ставят в соответствие структуры исходного и переводного языков. Начальный этап работы включает в себя морфологический, синтаксический (а иногда и семантический) анализ текста для создания внутреннего представления. Перевод генерируется из этого представления с использованием двуязычных словарей и грамматических правил. Иногда на основе первичного представления, которое было получено из исходного текста, строят более «абстрактное» внутреннее представление. Это делается для того, чтобы акцентировать места важные для перевода, и отбросить несущественные части текста. При построении текста перевода преобразование уровней внутренних представлений происходит в обратном порядке.
При использовании этой стратегии получается достаточно высокое качество переводов, с точностью в районе 90% (хотя это сильно зависит от языковой пары). Работа любой системы трансфертного перевода состоит как минимум из пяти частей:
При морфологическом анализе слова исходного текста классифицируются по частям речи. Выявляются их морфологические признаки. Определяются леммы слов [Егорушкин, 2002:167].
В тексте некоторые слова могут иметь более чем одно значение, вызывая неоднозначность в анализе. При лексической категоризации выявляется контекст слова. Возможны различного рода пометки и уточнения.
Лексический трансфер характеризуется тем, что на основе двуязычного словаря происходит перевод лемм слов. Действие очень похоже на пословный перевод.
При структурном трансфере слова согласуются в предложении.
А в процессе морфологической генерации на основе выходных данных структурного трансфера создаются словоформы переводного текста.
Одной из основных особенностей трансфертных систем машинного перевода является этап, во время которого промежуточное представление текста на языке оригинала «передается» в промежуточное представление текста в целевом языке. Это может работать на одном из двух уровней лингвистического анализа, или сразу на обоих.
Уровни:
Интерлингвистический машинный перевод – один из классических подходов к машинному переводу. Исходный текст трансформируется в абстрактное представление, которое не зависит от языка (в отличие от трансфертного перевода). Переводной текст создается на основе этого представления.
Кроме того, в рамках такого подхода можно:
Однако, до сих пор не существует реализаций такого подхода, которые бы корректно работали бы хотя бы для двух языков. Многие эксперты высказывают сомнения в возможности такой реализации. Сама большая сложность для создания подобных систем заключается в проектировании межъязыкового представления. Оно должно быть одновременно абстрактным и независящим от конкретных языков, но в тоже время оно должно отражать особенности любого существующего языка. С другой стороны, в рамках искусственного интеллекта, задача выделения смысла текста на данный момент до сих пор не решена.
В этом методе перевода, межъязыковое представление можно рассматривать как способ описания анализа текста, на языке оригинала. При этом, в представлении сохраняются морфологические, синтаксические характеристики текста. Предполагается, что таким образом можно передать «смысл» при создании переводного текста.
При этом иногда используется два межъязыковых представления. Одно из них более отражает характеристики исходного языка. Другое – языка перевода. Перевод в данном случае производится в два этапа.
В некоторых случаях используются два и более представления одного уровня (одинаково близкие к обоим языкам), но разнящиеся по тематике. Это необходимо для повышения качества перевода специфических текстов.
Такой подход не является чем-то новым для лингвистики. Он основан на идеи близости языков. Для улучшения качества перевода, естественный язык используется в качестве моста между двумя другими языками. Например, при переводе с украинского на английский, иногда используется русский язык [Кормалев, 2003:17].
Для
использования системы
Самым сложным моментом при создании такого типа является невозможность построить базу для широких областей знаний. А те базы, которые создаются для очень специфичной тематики, обладают высокой вычислительной сложностью.
Перевод основанный на примерах – один из подходов к машинному переводу, при котором используется двуязычный корпус текста. Этот корпус текста во время перевода используется как база знаний. Грубо говоря, это перевод по аналогии.
Например:
Английский | Немецкий |
How much is that red umbrella? | Was kostet dieser rote Regenschirm? |
How much is that small camera? | Was kostet diese kleine Kamera? |
Языковые
пары — тексты, содержащие предложения
на одном языке и соответствующие
им предложения на втором, могут
быть как вариантами написания двух
предложений человеком —
Можно заметить, что предложения из примера отличаются только двумя словами. И это можно видеть для обоих языков. В данном случае для перевода нужно знать только три единицы информации:
Информация о работе Компьютерный перевод как разновидность перевода