Название: Введение в прикладную лингвистику (Соснина Е.П.)

Жанр: Гуманитарный

Просмотров: 3988


Лекция 7

План

I.    Машинный перевод. Виды МП.

П.   Задача машинного перевода как одна из важнейших задач

прикладной лингвистики. Подходы к моделированию МП. III. Основные этапы МП.

 

I. Перевод с одного языка на другой в общем случае состоит в изменении алфавита, лексики и синтаксиса языка с сохранением его семантики.

Перевод - это вид информационной деятельности, потребность в которой никогда не сокращается, а наоборот увеличивается [2]. Исследования рынка переводов показали, что этот вид деятельности увеличивается на 15\% в год. В составе переводов преобладают научно-технические переводы - это 40\% от общего объема, затем юридический, бухгалтерский, устный, синхронный, учебный, ..., художественный - 0,3\%.

Проблема моделирования перевода для приложения ее в компьютерной технике является центральной проблемой как для прикладной лингвистики, так и для искусственного интеллекта. Очевидно, что автоматизация перевода позволит повысить его эффективность, а также расширит границы межчеловеческой коммуникации.

Машинный перевод - это преобразование компьютером текста на одном естественном языке в эквивалентный по содержанию текст на другом естественном языке. Системы МП - это комплекс специальных сложнейших программ и алгоритмов плюс специальные автоматические словари входного и выходного языков.

Историю МП отсчитывают с 1946 г., с возникновения такой науки, как кибернетика (наука об управлении). В 1954 г. был проведен так называемый Джоржтаунский эксперимент: переводился текст (250 слов) с русского на английский язык. Первые же опыты по МП показали огромные трудности при моделировании семантики (смысла). Эти проблемы не решены до сих пор.

В настоящее время актуальность МП очень высока, что связано с ростом информации, коммуникации, компьютеризации общества.

 

Виды современного МП:

информативный — грубый пословный перевод без участия человека, достаточный для поверхностного ознакомления с содержанием текста (по-другому - автоматический);

профессиональный - более качественный перевод с последующим редактированием человеком {автоматизированный);

3) персональный - считается очень профессиональным переводом. Этот тип перевода проходит в режиме диалога человека с компьютером (системы типа TRANSLATION MEMORY).

 

Самыми популярными на настоящее время системами для автоматизированного и автоматического перевода в России являются компьютерные переводчики петербургской фирмы ПроМТ (Styles, ПроМТ, Magic Gooddy), а также система Socrat. Наибелее известными зарубежными системами МП являются: SYSTRAN (амер.), LOGOVISTA (амер.), EUROLANG (франц.), LOGOS (амер.). Все они дают неплохое качество информативного и автоматизированного перевода. Системы для персонального перевода на порядок сложнее и дороже и являются прерогативой профессиональных переводчиков художественной литературы. Качество МП во многом зависит от количества и качества автоматических словарей, позволяющих перевести все оттенки значений слова, подобрать нужный термин в зависимости от конкретной предметной области переводимого текста.

 

П. Основной задачей машинного перевода является анализ и синтез текста на естественном языке, т.е. задача лингвистической трансляции. Она требует:

распознавания символов (графики) на этапе ввода в компьютер;

морфологического и лексического анализа;

синтаксического анализа и синтеза;

семантических преобразований.

При МП машина просматривает все уровни языковой структуры, переходя от одной подзадачи к другой. Для моделирования МП необходимо моделирование его подзадач, разработка алгоритмов и компьютерных программ для работы этих алгоритмов. Если внимательно присмотреться к этапам МП, можно увидеть, что все это отдельные и сложные задачи прикладной лингвистики.

За историю машинного перевода выделились 3 подхода к его моделированию [2]:

а)         «прямые» системы МП дают пословный перевод (слово в слово);

б)         «текст — смысл — текст», здесь целью является разработать смысловой

язык-посредник;

в)         «текст - текст». Перевод происходит на уровне переводных

соответствий языковой пары. Единицей перевода выступает переводное

соответствие, тесно связанное с лексической единицей (словосочетание, слово).

ТЕКСТ,

! ТРАНСФЕР

-М                   

ТЕКСТ,

 

В модели (в) появляется промежуточный этап - трансфер, на котором происходит установление переводных соответствий (согласование языков) [1]. Третья модель перевода наиболее удачная и в настоящее время преобладает над первыми двумя, которые более ограничены по своим возможностям.

 

III.    Классически [1,3] МП разбивается на этапы анализа входного текста Т1 и синтеза выходного текста Т2.

 

ТРАНСФЕР Tl Т2

 

СИНТЕЗ Т2

 

ТЕКСТ2

Словари входного языка,

формальная грамматика входного текста

Входной и выходной словари

алгоритмы, описывающие правила трансфера

Словарь выходного языка и грамматика

 

 

Преобразование Т1 должно начинаться с предварительной подготовки -анализа текста. Например, если на вход англо-русской системы МП поступает текст на китайском языке, то самый первый этап графического и морфологического анализа сообщит о невозможности перевода. Различают следующие виды анализа: морфологический, лексический, синтаксический, семантический. Целью этапа анализа является построение внутреннего представления входного предложения.

Целью этапа трансфера является преобразование структуры входного предложения во внутреннюю структуру выходного с помощью специальных формальных правил трансфера.

Цель этапа синтеза - на основе полученной в результате анализа структуры построить (синтезировать) правильное предложение на выходном языке.

 

Примером машинного перевода может служить операция трансляции в языках программирования (см. ниже рис.), когда введенная в компьютер программа (например, программа на языке Pascal или С) переводится на язык машины (двоичные коды 1/0).

 

Трансляцию осуществляет сложная программа - компилятор. Но язык программирования - искусственный язык, в котором формальной грамматикой заданы жесткие правила, поэтому сам процесс перевода проще, чем в естественном языке.

входная

программа на ЯП

 

лексический анализатор

 

т

 

синтаксический анализатор

Т

 

генератор -семантический анализ и синтез

т

программа

на машинном коде 11001011

 

лексические ошибки в именах

синтаксические ошибки в командах

генерирует машинные коды в соответствии с командами

 

 

Семинар

План

Знакомство с компьютерными лингвистическими программами (дисплейный класс).

Автоматический словарь (Lingvo). Гипертекстовый

терминологический англо-русский словарь.

Компьютерный переводчики («ПроМТ 98» «Magic Gooddy»).

 

Найти слова и значения слов.

Перевести небольшой текст примера.

 

Список литературы

Марчук Ю.Н. Методы моделирования перевода. М., 1985. С 7-17, 43-45, 91-110, 135-137.

Марчук Ю.Н. Основы компьютерной лингвистики. М., 1999. С 172-189.

Системы общения и экспертные системы //Искусственный интеллект. М, 1990. Т.1. С. 201-206, 214-216, 248.

 

зо

Лекция 8

План

I.    Автоматическая обработка текста. Текст и гипертекст. П.   Распознавание устной и письменной речи.

Лингвостатистика.

Автоматизированное изучение иностранного языка.

 

В настоящей лекции мы кратко рассмотрим другие прикладные задачи лингвистики, которые появились либо получили новое развитие с возникновением компьютерной техники.

I. Автоматическая обработка текста - это любое преобразование текста на естественном или искусственном языках с помощью компьютера [2].

Первоначально пользователю были доступны примитивные операции по обработке текста в простых компьютерных программах-редакторах {Lexicon, NC), впоследствии требования к редактированию и представлению документов возрастали, что привело к созданию усовершенствованных систем типа WORD Processors (Microsoft Word и др.). Появились настольные издательские системы для профессиональной верстки документов, книг (например, PageMaker). Таким образом, достаточно развитой на настоящее время операцией по преобразованию текста является автоматизированное редактирование - корректировка введенного в компьютер текстового материала человеком-редактором (например, форматирование текста).

Следующим этапом были компьютерные системы типа TEXT Processors для автоматического реферирования и аннотирования текстов, машинного перевода и лексикографической обработки текстов.

Системами самой высокой сложности стали программы для обработки естественного языка типа NLP {Natural Language Processors) для сложных систем искусственного интеллекта, экспертных и профессиональных систем машинного перевода.

В последнее время с появлением компьютерных сетей и новых информационных технологий несколько трансформировались традиционные лингвистические понятия, в частности понятие текста.

 

Под текстом {лат. textus - связанность, материал, сплетение), письменным или устным, принято понимать логически связанную последовательность лингвистических знаков.

Основные характеристики текста:

связанность;

осмысленность;

цельность (должен быть закончен по смыслу).

Кроме того, классически текст имеет линейную структуру. Но с середины нашего века появилось новое понимание текста, когда стали считать, что нелинейный характер текста может быть эффективнее. С середины 80-х годов XX века, когда быстрыми темпами стали развиваться компьютерные и телекоммуникационные сети (WWW, Internet) и вместе с тем межчеловеческая коммуникация, актуальным стало новое понятие гипертекста (hypertext).

 

Гипертекст - особым образом структурированный текст, разбитый на отдельные блоки, имеющий нелинейное представление, для эффективной презентации информации в компьютерных средах.

 

ГИПЕРТЕКСТ с иерархической структурой (переход от ссылки к ссылке

            с возвратом на начальную страницу)

 

Наряду с удобным представлением текста, существуют и ограничения на гипертекст:

по объему экрана (1-2 экрана на информативный узел);

по глубине (вложенность информации не должна превышать 5 уровней);

проблемы навигации (движения по сети при ее большой глубине).

Для стандарта представления информации в сетях разрабатываются специализированные языки. Например, в сети Internet этот язык называется HTML - HyperText Markup Language (язык гипертекстовой разметки документов).

 

П. Распознавание компьютером устной и письменной речи также относится к задачам прикладной лингвистики. Моделирование языковых сущностей и их использование возможно только тогда, когда языковая информация вводится в компьютер в виде письменных текстов или устной речи.

а) Распознавание речи (Voice/Speech Recognition) [3]

Коммуникация человека и машины посредством речи удобна и эффективна, т.к. устная речь одна из самых быстрых форм общения.

С середины 50-х гг. XX века это направление прикладной лингвистики получило развитие с изобретением специального физического прибора спектрографа [3]. При распознавании голоса существует тесная связь лингвистики и физики (акустики), т.к. каждый звук имеет свои акустические характеристики, которые отображаются на специальных графиках (спектрограммах) в координатах «время - частота - амплитуда». В настоящее время спектрограммы (см.рис.) являются наиболее доступной формой фиксации звучащей речи, на основе которых строится автоматическое пофонемное распознавание речи (в виде фонологической транскрипции).

 

По результатам многочисленных исследований установлено, что автоматическое распознавание речи очень сложно, за исключением того случая, когда словарь распознаваемых слов ограничен. В системах с распознаванием речи разработчики пока не вышли за уровень лексики языка.

Несмотря на свою сложность, это направление развивается быстрыми темпами, и уже в 90-х годах XX в. появились коммерческие системы распознавания речи для различных целей.

 

б) Распознавание графем (письменной речи)

Буквы алфавита, пунктуационные знаки и другие символы служат в качестве составляющих любого естественно-языкового текста, вводимого в память компьютера.

Распознавание символов реализуется эффективнее для печатного текста, чем для рукописного; и в настоящее время задача распознавания печатного текста практически решена. Для рукописного текста распознавание графем гораздо сложнее, так как нужны более совершенные алгоритмы распознавания образов.

 

III. Основной задачей статистической лингвистики (лингвостатистики) является применение количественных математических методов для раскрытия закономерностей функционирования единиц языка в речи, также установление закономерностей построения текста. Коллективные исследования в области лингвистики ведутся в таких основных направлениях:

разработка лингвостатистических моделей на материале разных языков;

поиск некоторой универсальной математической общеязыковой модели языка;

статистическая лексикография.

Актуальной проблемой статистической лексикографии является создание частотных словарей (см. приложение 5), которые дают материал для изучения структуры текстов различных предметных областей науки и техники.

 

IV. Автоматизированное обучение иностранному языку. Одним из новых направлений прикладной лингвистики является возможность автоматизированного обучения иностранным языкам (компьютерная лингводидактика). За рубежом это направление, известное как Computer Assisted Language Learning (CALL), является перспективным и преподается как специальная дисциплина прикладного языкознания на лингвистических факультетах колледжей и университетов.

Применение компьютерных технологий (особенно технологии «мультимедиа») в процессе обучения иностранным языкам положительно зарекомендовало себя в последние два десятилетия. Мультимедиа технология позволяет моделировать среду, имитирующую лингвистическую и коммуникативную реальность, что очень важно для языкового обучения, а также активизировать основные методические принципы обучения иностранным языкам - развитие навыков: аудирования, говорения, чтения и письма [1]. Неотъемлемой частью компьютерного образования с внедрением новых информационных и сетевых технологий стали такие электронные средства его поддержки, как машинные переводчики и словари, автоматизирующие перевод необходимой информации, получаемой в WWW. Огромный потенциал в настоящее время получает использование возможностей Internet для CALL.

Важным условием успешного применения компьютера при языковом обучении является создание мощных сред поддержки CALL, которые, кроме обучающих компьютерных курсов, должны состоять из текстовых процессоров, электронных словарей, машинных переводчиков, различного вида справочников, тестирующих программ, орфографических систем и т.п. Связующей основой для организации CALL-сред может служить гипертекстовая технология.

 

Семинар

План

I.    В компьютерном классе: •  Internet —*■ гипертекст.

Спектрограммы (CD-ROM программа «Профессор Хиггинс»).

П.   В лингвистическом классе:

электронная библиотека художественной литературы.

Internet в обучении (газеты, CD), мультимедиа.

 

Список литературы

Настольная книга преподавателя иностранного языка: Справочное пособие / Под ред. А.А. Леонтьева. Минск: Вышэйшая школа, 1997. 425 с.

Лингвистический энциклопедический словарь /Гл. ред. В.Н. Ярцева. М., 1998. С. 14-15.

Потапова Р.К. Речь: коммуникация, информация, кибернетика. М., 1997. С. 122-127, 293-304, 505-507.

Проблемы компьютерной лингвистики : Сборник научных статей. Минск, 1997. 320 с.