Название: Введение в прикладную лингвистику (Соснина Е.П.)

Жанр: Гуманитарный

Просмотров: 3987


Лекция 5

План

I.    Лингвистика в задачах информационного поиска.

Информационный поиск.

Виды поиска.

Характеристики информационного поиска.

П.   Информационно-поисковые языки как искусственные языки.

Классификация информационно-поисковых языков. III. Формула семантического поиска.

 

I. Поиск информации - это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и т.д.), которые соответствуют поступившему запросу.

В качестве средств хранения и поиска информации выступают информационно-поисковые системы (ИПС), элементами которых являются массив документов (база данных), выступающих как объект поиска, информационно-поисковый язык (ИПЯ), правила индексирования, правила поиска, технические средства (для автоматизированных ИПС).

При вводе документа в базу данных ИПС его индексируют, т.е. определяют ключевые слова (тему, термины) и выражают их на информационно-поисковом языке, принятом в этой системе, и записывают в виде поискового образа (ПО). Так база данных ИПС состоит из поисковых образов (формальная модель для поиска). При поиске производится сопоставление вашего запроса, т.е. того, что вы спросили на языке ИПС с поисковым образом, т.е. тем, что в ней хранится. Поисковое предписание (запрос на поиск) также должно быть ограничено по языку и иметь определенное формальное представление.

В зависимости от того, какая модель находится в форме (in form), различают следующие виды автоматизированного поиска:

библиографический (записи в каталогах, тип Record);

библиотечный (тексты, документы-записи в виде файлов);

фактографический (табличные данные в базе данных);

4) продукционный (процедурные правила вида "если..то...").

 

Характеристики информационного поиска - это такие его семантические показатели, как:

полнота выдачи/потери информации;

точность ее выдачи;

информационный шум.

Рассмотрим следующую таблицу, по которой легко просчитываются

П. Из определения информационно-поисковой системы видно, что ее лингвистическими средствами являются специализированный искусственный язык (информационно-поисковый язык), а также методы индексирования и поиска документов. Рассмотрим основной лингвистический элемент ИПС - ее язык.

Информационно-поисковый язык (ИПЯ) - это специализированный искусственный язык, предназначенный для индексирования (описания) формальных характеристик документов в виде поискового образа, а также для описания информационных запросов (поисковых предписаний) к информационно-поисковым системам.

Информационно-поисковый язык, как и любой язык, состоит из алфавита, словаря (термины или специальные символьные коды), грамматики и является искусственным языком, т.е. ограниченным по своей форме и структуре. Чаще всего для построения поискового образа и предписания принято использовать перечни слов, сгруппированные по определенным правилам (методом упорядочения или с помощью логических связок). Для более наглядного понимания способа хранения информации в ИПС приведем следующий пример.

Например, документ N 3 имеет ПО ={S1, S2, S3}, а документ N5 - {S5, S6}. Если поисковое предписание будет niT=SlAS2, то поисковая система выдаст адреса документов N1 и№.

 

В классической литературе по информационному поиску [2, 3] обычно выделяют следующие виды информационно-поисковых языков:

иерархические;

алфавитно-предметные;

фасетные;

дескрипторные;

семантические коды.

Иерархические (иерархия - классификация от общего к частному). Такая организация используется для поиска книг в библиотеке (например, Универсальная десятичная классификация - УДК).

Дерево классов

 

/° /°

Алфавитно-предметные представляются как алфавитный список ключевых слов какого-либо документа (например, алфавитно-предметный указатель в конце книг). Используется для построения различных указателей, каталогов, картотек.

Фасетные языки также используют дерево классов, но группируют его в блоки (фасеты). Индексирование в фасетных языках эффективнее за счет формул - шаблонов (например, ABC).

фасет

 

Дескрипторные языки описательного характера используют списки слов (дескрипторы), организованные в специальные словари (тезаурусы).

Типичная словарная статья имеет вид [1]: Дескриптор

с - ключевые слова (синонимы) в - родовые слова

(дескриптор, подчиняющий данный) н - видовые слова

(дескриптор, подчиненный данному) а - ассоциации (отношения)

 

В таких языках используется принцип координатного индексирования, т.е. перечисляются ключевые слова или дескрипторы, которые выражают центральную тему или целостную характеристику данного объекта.

Дескрипторные языки - наиболее естественная и популярная форма для выражения поисковых образов (ПО) и поисковых предписаний (ГШ) и в настоящее время широко используется в современных информационно-поисковых системах (в частности во многих поисковых системах сети Internet).

 

III. Формула семантического поиска. В ИПС определенную трудность представляет семантика, т.к. для такого рода систем основная проблема - это проблема моделирования сути, или смысла хранящегося документа, или формулирование запроса, и их сопоставление. С помощью семантических средств ИПС осуществляются смысловые операции обработки документов и запросов. Проще последовательность этих операций отобразить формулой [2]:

 

и*

 

где С; - план-содержания запроса (значение запроса), Lj- план-выражения запроса на естественном языке,

Si - поисковое предписание (план-выражения на искусственном поисковом языке),

Sd- представление документа на информационно-поисковом языке

(поисковый образ), Ld- текст документа на естественном языке (план выражения документа), Cd- понятие в искомом документе, —► - индексирование, < ► - сопоставление (сравнение).

Часто для индексирования используются тезаурусы, специальные словари для информационного поиска, организованные по принципу сопоставления слов с их понятиями.

 

Семинар

План

Логические средства при представлении знаний.

Логика предикатов.

Отношения для представления лингвистических знаний

и информации (на примере временной псевдофизической логики).

RX-коды. Домашнее задание

 

Построить текстовую структуру примера, дополнив её с помощью правил псевдофизической логики.

Логика предикатов первого порядка - предикатные формулы (5).

 

Список литературы

ГОСТ 7.24-90. СИБИД. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. М., 1973. 124 с.

Соколов А.В. Информационно-поисковые системы. М., 1981. С. 8-13, 40-60, 70-77.

Черный А.И Введение в теорию ИП. М., 1975. С. 25-100.