Название: Введение в прикладную лингвистику (Соснина Е.П.) Жанр: Гуманитарный Просмотров: 4028 |
Лекция 6План I. Лексикография как одно из важных направлений прикладной лингвистики. Словарь как объект лексикографии. Классификация и организация словарей. П. Традиционная и машинная лексикография. Основные направления машинной лексикографии. Некоторые особенности автоматических словарей. III. Идеографические словари и тезаурусы.
I. Лексикография, будучи одним из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей. Под словарем понимают: полный словарный состав языка, справочную книгу слов, расположенных в определенном порядке, дающую кому-либо информацию о том или ином слове. Основная задача словаря - это представление либо описание лексики языка. Это сложнейшая задача, так как лексика языка имеет тенденцию увеличиваться и качественно изменяться. Основной структурной единицей словаря (как книги) является словарная статья. Словник словаря - это перечень терминов словаря без их толкований.
Классификация словарей
общие
Примечание: общие лингвистические словари (толковые, переводные, орфографические, частотные и др.), специальные (синонимов, антонимов, словарь пословиц и поговорок, сленга, словари иностранных слов и др.) См. приложение 4.
Важнейшим вопросом при составлении словарей является порядок расположения словарных статей, чаще всего это алфавитный порядок или предметный (тематический), при котором слова группируются по темам (например, словарь по картинкам). В лексикографии существует 2 научно-практических направления: традиционная и машинная лексикография. Традиционная лексикография имеет глубокие исторические корни и в большей мере занимается теорией и практикой составления «традиционных» словарей. В отличие от первой, машинная (компьютерная) лексикография - молодая наука, реализующая традиционные наработки в технических средах и создающая разнообразные автоматические словари. Машинная лексикография занимается автоматизацией подготовки словарей и переводит словари в компьютерную форму. В настоящее время выделяют три основных направления машинной лексикографии: автоматическое получение из текста с помощью компьютера различных словарей (например, частотные словари, словари конкордансов, терминологические); разработка теоретических и практических аспектов составления компьютерных словарей для машинного перевода, искусственного интеллекта и т.д. (например, словари корней для морфологического анализа); создание словарей, являющихся машинными версиями традиционных словарей. Автоматические словари - это сложный комплекс компьютерных программ. Отметим некоторые особенности автоматических словарей: кроме словарной базы данных (перечень слов по алфавиту) для работы автоматического словаря необходимы специальные алгоритмы, например, алгоритм лемматизации. Лемматизация - это приведение разных форм слова к его канонической (исходной) форме (похоже на морфологический анализ слов); в машинных словарях присутствуют не только перечни отдельных слов, но и до 50 \% словосочетаний (особенно в терминологических словарях, которые очень важны для перевода технических текстов); автоматические словари получают в настоящее время большое распространение для машинного перевода. Эффективность перевода намного выше при использовании компьютерного словаря, т.к. поиск осуществляется быстрее во много раз. Самое главное в таких словарях - это представление всех значений слова. Примечание: следует отличать автоматические словари и системы машинного перевода. Последние лишь включают первые, являясь значительно сложнее. Класс идеографических словарей (предметные, тематические), к которым относятся и тезаурусы, - это особого рода словари, организованные, во-первых, по тематическому принципу, и, во-вторых, по принципу «от смысла к слову», т.е. идеографические словари ориентированы на семантику языка, и каждый такой словарь - это некоторая семантическая модель лексики, построенная на иерархических отношениях типа «род - вид», «часть - целое», «синонимы» и т.п. Самый известный классический идеографический словарь - словарь Роже [5], в котором 1000 основных тем. Тезаурус - это также идеографический словарь, но имеющий четкую иерархию отношений. Словник тезауруса - это перечень дескрипторов {дескриптор - однозначный стандартный термин). В словарных статьях тезауруса отражены существенные для данного термина связи с другими понятиями, иными словами - это маленькая энциклопедия. Тезаурусы в машинной лексикографии очень точные инструменты, т.к. они предназначены для информационного поиска, а характеристики информационного поиска (информационный шум, точность выдачи и др.) непосредственно зависят от структуры тезауруса, поэтому имеются стандарты для сопоставления информационно-поисковых тезаурусов.
Семинар План Хранение информации в ИПС. Тезаурус —* дескрипторная статья. Словари —> определение типа словаря [приложение 4]. Домашнее задание
Составить 5 дескрипторных статей по лекциям для ИПС. Составить матрицу ИПС по лекциям. Информационный поиск в библиотеке (конспект).
Список литературы Лингвистический энциклопедический словарь /Гл. ред. В.Н. Ярцева. м, 1998. С. 258, 462. Марчук Ю.Н. Основы компьютерной лингвистики. М., 1999. С. 49-58. Морковкин В.В. Идеографические словари. М., 1970. 324 с. Щерба Л.В. Опыт общей теории лексикографии //Языковая система и речевая деятельность. Л., 1974. 412 с. http://search, thesaurus, com - электронная версия словаря Roget P.M. Thesaurus of English words and phrases. |
|