Название: Введение в прикладную лингвистику (Соснина Е.П.) Жанр: Гуманитарный Просмотров: 4028 |
Лекция 5План I. Лингвистика в задачах информационного поиска. Информационный поиск. Виды поиска. Характеристики информационного поиска. П. Информационно-поисковые языки как искусственные языки. Классификация информационно-поисковых языков. III. Формула семантического поиска.
I. Поиск информации - это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и т.д.), которые соответствуют поступившему запросу. В качестве средств хранения и поиска информации выступают информационно-поисковые системы (ИПС), элементами которых являются массив документов (база данных), выступающих как объект поиска, информационно-поисковый язык (ИПЯ), правила индексирования, правила поиска, технические средства (для автоматизированных ИПС). При вводе документа в базу данных ИПС его индексируют, т.е. определяют ключевые слова (тему, термины) и выражают их на информационно-поисковом языке, принятом в этой системе, и записывают в виде поискового образа (ПО). Так база данных ИПС состоит из поисковых образов (формальная модель для поиска). При поиске производится сопоставление вашего запроса, т.е. того, что вы спросили на языке ИПС с поисковым образом, т.е. тем, что в ней хранится. Поисковое предписание (запрос на поиск) также должно быть ограничено по языку и иметь определенное формальное представление. В зависимости от того, какая модель находится в форме (in form), различают следующие виды автоматизированного поиска: библиографический (записи в каталогах, тип Record); библиотечный (тексты, документы-записи в виде файлов); фактографический (табличные данные в базе данных); 4) продукционный (процедурные правила вида "если..то...").
Характеристики информационного поиска - это такие его семантические показатели, как: полнота выдачи/потери информации; точность ее выдачи; информационный шум.
П. Из определения информационно-поисковой системы видно, что ее лингвистическими средствами являются специализированный искусственный язык (информационно-поисковый язык), а также методы индексирования и поиска документов. Рассмотрим основной лингвистический элемент ИПС - ее язык. Информационно-поисковый язык (ИПЯ) - это специализированный искусственный язык, предназначенный для индексирования (описания) формальных характеристик документов в виде поискового образа, а также для описания информационных запросов (поисковых предписаний) к информационно-поисковым системам. Информационно-поисковый язык, как и любой язык, состоит из алфавита, словаря (термины или специальные символьные коды), грамматики и является искусственным языком, т.е. ограниченным по своей форме и структуре. Чаще всего для построения поискового образа и предписания принято использовать перечни слов, сгруппированные по определенным правилам (методом упорядочения или с помощью логических связок). Для более наглядного понимания способа хранения информации в ИПС приведем следующий пример.
В классической литературе по информационному поиску [2, 3] обычно выделяют следующие виды информационно-поисковых языков: иерархические; алфавитно-предметные; фасетные; дескрипторные; семантические коды. Иерархические (иерархия - классификация от общего к частному). Такая организация используется для поиска книг в библиотеке (например, Универсальная десятичная классификация - УДК). Дерево классов
/° /° Алфавитно-предметные представляются как алфавитный список ключевых слов какого-либо документа (например, алфавитно-предметный указатель в конце книг). Используется для построения различных указателей, каталогов, картотек. Фасетные языки также используют дерево классов, но группируют его в блоки (фасеты). Индексирование в фасетных языках эффективнее за счет формул - шаблонов (например, ABC). фасет
Дескрипторные языки описательного характера используют списки слов (дескрипторы), организованные в специальные словари (тезаурусы). Типичная словарная статья имеет вид [1]: Дескриптор с - ключевые слова (синонимы) в - родовые слова (дескриптор, подчиняющий данный) н - видовые слова (дескриптор, подчиненный данному) а - ассоциации (отношения)
В таких языках используется принцип координатного индексирования, т.е. перечисляются ключевые слова или дескрипторы, которые выражают центральную тему или целостную характеристику данного объекта. Дескрипторные языки - наиболее естественная и популярная форма для выражения поисковых образов (ПО) и поисковых предписаний (ГШ) и в настоящее время широко используется в современных информационно-поисковых системах (в частности во многих поисковых системах сети Internet).
III. Формула семантического поиска. В ИПС определенную трудность представляет семантика, т.к. для такого рода систем основная проблема - это проблема моделирования сути, или смысла хранящегося документа, или формулирование запроса, и их сопоставление. С помощью семантических средств ИПС осуществляются смысловые операции обработки документов и запросов. Проще последовательность этих операций отобразить формулой [2]:
и*
где С; - план-содержания запроса (значение запроса), Lj- план-выражения запроса на естественном языке, Si - поисковое предписание (план-выражения на искусственном поисковом языке), Sd- представление документа на информационно-поисковом языке (поисковый образ), Ld- текст документа на естественном языке (план выражения документа), Cd- понятие в искомом документе, —► - индексирование, < ► - сопоставление (сравнение). Часто для индексирования используются тезаурусы, специальные словари для информационного поиска, организованные по принципу сопоставления слов с их понятиями.
Семинар План Логические средства при представлении знаний. Логика предикатов. Отношения для представления лингвистических знаний и информации (на примере временной псевдофизической логики). RX-коды. Домашнее задание
Построить текстовую структуру примера, дополнив её с помощью правил псевдофизической логики. Логика предикатов первого порядка - предикатные формулы (5).
Список литературы ГОСТ 7.24-90. СИБИД. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. М., 1973. 124 с. Соколов А.В. Информационно-поисковые системы. М., 1981. С. 8-13, 40-60, 70-77. Черный А.И Введение в теорию ИП. М., 1975. С. 25-100. |
|