Название: Введение в прикладную лингвистику (Соснина Е.П.)

Жанр: Гуманитарный

Просмотров: 3996


Лекция 6

План

I. Лексикография как одно из важных направлений прикладной лингвистики. Словарь как объект лексикографии. Классификация и организация словарей.

П. Традиционная и машинная лексикография. Основные направления машинной лексикографии. Некоторые особенности автоматических словарей.

III. Идеографические словари и тезаурусы.

 

I.      Лексикография, будучи одним из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей. Под словарем понимают:

полный словарный состав языка,

справочную книгу слов, расположенных в определенном порядке, дающую кому-либо информацию о том или ином слове.

Основная задача словаря - это представление либо описание лексики языка. Это сложнейшая задача, так как лексика языка имеет тенденцию увеличиваться и качественно изменяться.

Основной структурной единицей словаря (как книги) является словарная статья. Словник словаря - это перечень терминов словаря без их толкований.

 

Классификация словарей

 

общие

 

Примечание: общие лингвистические словари (толковые, переводные, орфографические, частотные и др.), специальные (синонимов, антонимов, словарь пословиц и поговорок, сленга, словари иностранных слов и др.) См. приложение 4.

 

Важнейшим вопросом при составлении словарей является порядок расположения словарных статей, чаще всего это алфавитный порядок или предметный (тематический), при котором слова группируются по темам (например, словарь по картинкам).

В лексикографии существует 2 научно-практических направления: традиционная и машинная лексикография. Традиционная лексикография имеет глубокие исторические корни и в большей мере занимается теорией и практикой составления «традиционных» словарей. В отличие от первой, машинная (компьютерная) лексикография - молодая наука, реализующая традиционные наработки в технических средах и создающая разнообразные автоматические словари.

Машинная лексикография занимается автоматизацией подготовки словарей и переводит словари в компьютерную форму. В настоящее время выделяют три основных направления машинной лексикографии:

автоматическое получение из текста с помощью компьютера различных словарей (например, частотные словари, словари конкордансов, терминологические);

разработка теоретических и практических аспектов составления компьютерных словарей для машинного перевода, искусственного интеллекта и т.д. (например, словари корней для морфологического анализа);

создание словарей, являющихся машинными версиями традиционных словарей.

Автоматические словари - это сложный комплекс компьютерных программ. Отметим некоторые особенности автоматических словарей:

кроме словарной базы данных (перечень слов по алфавиту) для работы автоматического словаря необходимы специальные алгоритмы, например, алгоритм лемматизации. Лемматизация - это приведение разных форм слова к его канонической (исходной) форме (похоже на морфологический анализ слов);

в машинных словарях присутствуют не только перечни отдельных слов, но и до 50 \% словосочетаний (особенно в терминологических словарях, которые очень важны для перевода технических текстов);

автоматические словари получают в настоящее время большое распространение для машинного перевода. Эффективность перевода намного выше при использовании компьютерного словаря, т.к. поиск осуществляется быстрее во много раз. Самое главное в таких словарях - это представление всех значений слова.

Примечание: следует отличать автоматические словари и системы машинного перевода. Последние лишь включают первые, являясь значительно сложнее.

Класс идеографических словарей (предметные, тематические), к которым относятся и тезаурусы, - это особого рода словари, организованные, во-первых, по тематическому принципу, и, во-вторых, по принципу «от смысла к слову», т.е. идеографические словари ориентированы на семантику языка, и каждый такой словарь - это некоторая семантическая модель лексики, построенная на иерархических отношениях типа «род - вид», «часть - целое», «синонимы» и т.п.

Самый известный классический идеографический словарь - словарь Роже [5], в котором 1000 основных тем.

Тезаурус - это также идеографический словарь, но имеющий четкую иерархию отношений. Словник тезауруса - это перечень дескрипторов {дескриптор - однозначный стандартный термин). В словарных статьях тезауруса отражены существенные для данного термина связи с другими понятиями, иными словами - это маленькая энциклопедия. Тезаурусы в машинной лексикографии очень точные инструменты, т.к. они предназначены для информационного поиска, а характеристики информационного поиска (информационный шум, точность выдачи и др.) непосредственно зависят от структуры тезауруса, поэтому имеются стандарты для сопоставления информационно-поисковых тезаурусов.

 

Семинар

План

Хранение информации в ИПС.

Тезаурус —* дескрипторная статья.

Словари —> определение типа словаря [приложение 4]. Домашнее задание

 

Составить 5 дескрипторных статей по лекциям для ИПС.

Составить матрицу ИПС по лекциям.

Информационный поиск в библиотеке (конспект).

 

Список литературы

Лингвистический энциклопедический словарь /Гл. ред. В.Н. Ярцева. м, 1998. С. 258, 462.

Марчук Ю.Н. Основы компьютерной лингвистики. М., 1999. С. 49-58.

Морковкин В.В. Идеографические словари. М., 1970. 324 с.

Щерба Л.В. Опыт общей теории лексикографии //Языковая система и речевая деятельность. Л., 1974. 412 с.

http://search, thesaurus, com - электронная версия словаря Roget P.M. Thesaurus of English words and phrases.