Название: Инвариантно-параметрическое представление и обобщенная ассоциативная обработка символьной и смысловой информации(Токмаков Г. П)

Жанр: Информационные системы и технологии

Просмотров: 3091


Аннотация

 

Научное изданиеТокмаков Геннадий ПетровичИНВАРИАНТНО-ПАРАМЕТРИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ И ОБОБЩЕННАЯ АССОЦИАТИВНАЯ ОБРАБОТКА СИМВОЛЬНОЙ И СМЫСЛОВОЙ ИНФОРМАЦИИИзд. лиц. 020640 от 22.10.97.Подписано в печать 01.09.99. Формат 60x84/16. Бумага писчая. Усл. печ. л. 10,70. Уч. - изд. л. 11,00. Тираж 100 экз. Заказе.Ульяновский государственный технический университет 432027, г. Ульяновск, ул. Северный Венец, д. 32.Типография УлГТУ, 432027, г. Ульяновск, ул. Северный Венец, д. 32.

 

Г. П. ТокмаковИНВАРИАНТНО-ПАРАМЕТРИЧЕСКОЕПРЕДСТАВЛЕНИЕ И ОБОБЩЕННАЯ АССОЦИАТИВНАЯ ОБРАБОТКА СИМВОЛЬНОЙ И СМЫСЛОВОЙИНФОРМАЦИИУльяновск 1999Министерство образования РФ Ульяновский государственный технический университетГ. П. ТокмаковИНВАРИАНТНО-ПАРАМЕТРИЧЕСКОЕПРЕДСТАВЛЕНИЕ И ОБОБЩЕННАЯ АССОЦИАТИВНАЯ ОБРАБОТКА СИМВОЛЬНОЙ И СМЫСЛОВОЙИНФОРМАЦИИУльяновск 1999

УДК 621.391.1.037.3 ББК 32.973.2 Т51УДК 621.391.1.037.3 Токмаков Г. П.Инвариантно-параметрическое представление и обобщенная ассоциативная обработка символьной и смысловой информации/ Ульяновский государственный технический университет.- Ульяновск: УлГТУ, 1999. - 182 с.В монографии представлена математическая модель обобщенного отражения реальной действительности и ее интерпретация на символьных и смысловых структурах. Разработанная математическая модель предназначена для реализации обобщенной ассоциативной обработки информации, где мерой сходства является отношение эквивалентности.Предназначена для аспирантов, научных работников и инженеров, исследующих и разрабатывающих интеллектуальные информационные системы.Научный редактор д-р техн. наук, профессор    Соснин П.И.Рецензенты: д-р техн. наук, профессор    Волгин Л.И.д-р техн. наук, профессор   Егоров Ю.П.Одобрено редакционно-издательским советом Ульяновского государственного технического университета

ISBN 5-89146-120-Х ©Г.П. Токмаков, 1999© Оформление. УлГТУ, 1999

Всякий раз, когда вам приходится иметь дело с некоторым объектом, наделенным структурой, попытайтесь определить преобразования, оставляющие без изменения структурные отношения. Вы можете рассчитывать на то, что на этом пути вам удастся глубоко проникнуть во внутреннее строение объекта.Г. Вейль. Симметрия/ Пер. с англ. - М.:Наука, 1962.ВВЕДЕНИЕВ конце XX столетия человеческая цивилизация вступает в стадию постиндустриального развития, когда уровень развития общества определяется не объемом выпускаемой промышленной продукции, а прежде всего наличием развитой инфраструктуры средств обработки данных и связи. Становится общепризнанным факт, что информация не менее важный ресурс, чем сырье и энергия, а способность накопления и обеспечения эффективного доступа к накопленной информации становится решающим фактором не только динамичного развития, но и существования современного общества. Наступает эпоха всеобщей информатизации, когда информационные системы (ИнфС), базирующиеся на современных компьютерах и средствах долговременного хранения больших объемов данных, внедряются практически во все сферы человеческой деятельности.Процесс информатизации общества сопровождается стремительным удешевлением вычислительных ресурсов и средств хранения данных, что связано с успехами в области электроники и магнитной записи. Прогресс в этих областях с начала 90-х годов особенно впечатляет, так как рост параметров исчисляется даже не в "разы", а на порядки. Например, тактовая частота процессора с 5-10 МГц возросла до 400-600 МГц, и в 2000 году ожидается переход за пределы 1 ГГц, объем оперативной памяти возрос с 64 Кбайт до 32-64 Мбайт, а объем внешней памяти - с 5-10 Мбайт до 2-5 Гбайт. Следует отметить, что здесь приведены не рекордные показатели, а характеристики персонального компьютера средней комплектации.Однако достижения в области наращивания быстродействия процессора и объемов памяти сводятся на нет все более и более усложняющимся и увеличивающимся программным обеспечением (ПО), которое на каждом этапе своего развития требует все более мощные процессоры и объемы памяти. В результате пользователи постоянно испытывают недостаток вычислительных ресурсов, что требует от них постоянного обновления парка вычислительных машин. Становится все более очевидным факт, что гипертрофированное развитие ПО является следствием неадекватных принципов обработки информации, вызванных разрывом между языком программирования и системой команд процессора. Как утверждается в работе [1], ключи к прогрессу в компьютерной технологии сегодня уже "не в гигагерцах и гигабайтах, а в чем-то другом". Это ставит на повестку дня вопрос применения иных подходов к моделированию реальной действительности (РД), более соответствующих человеческим представлениям об окружающей действительности, и разработки вычислительных механизмов, эффективно обрабатывающих новые модели данных.Почти все компьютеры, которые функционируют на сегодняшний день, выполняют вычисления на основе принципа, основанного фон-Нейманом. Вычислительный механизм, в котором управление вычислительным процессом выполняется в соответствии с заложенной в программе последовательностью инструкций, называется императивным, и он первоначально предназначался для проведения исключительно числовых операций. Объектами мира чисел являются целые и вещественные числа и логические значения, для представления которых во внутренней памяти процессора предусмотрены соответствующие форматы данных. Отношения между этими числами } выраженные арифметическими и логическими операциями, реализованные в виде микропрограмм в управляющей памяти процессора, составляют его систему команд. Таким образом, архитектура фон-неймановского процессора соответствует миру чисел и в ней естественно представляются объекты этого мира и отношения между ними.Характерной чертой числовой обработки является то, что при этом практически не используется информация о том, какие свойства и каких объектов обрабатываются. Объясняется это тем, что число - это абстракция, используемая для выражения количественной меры свойств объектов. При этом над числами можно производить различные операции, не зависимо от того,какие свойства каких объектов они выражают. Поэтому при числовой обработке не учитываются смысловые связи, а интерпретацию полученных результатов осуществляет пользователь. Операции над числами в этом случае сводятся к выборке по заданным адресам требуемых чисел, выполнению над ними арифметических или логических операций и записи полученных результатов по определенному адресу в ячейку памяти.Однако с расширением сферы применения компьютеров изменился характер решаемых на нем задач. Появились системы обработки экономических данных, информационно-поисковые задачи, системы управления данными, системы принятия решений на основе баз знаний. В отличие от задач числовой обработки в перечисленных задачах важное значение имеет содержание данных, т.е. сведения о том, значениями каких свойств являются обрабатываемые числа.Для такой обработки хорошо приспособлен принцип обработки информации, основанный на установлении некоторого соответствия (ассоциации) между хранимой в запоминающем устройстве (ЗУ) информацией и поисковыми аргументами. Однако средства ассоциативного доступа на сегодняшний обладают следующими недостатками:имеют незначительную информационную емкость;работают только с простыми структурами данных в форме массива п слов разрядности т;поиск информации осуществляется только в соответствии с мерой сходства по точному совпадению.Перечисленные недостатки являются весьма существенными, что вынуждает нас выйти за рамки традиционных подходов проектирования ассоциативных ЗУ (АЗУ). В настоящее время в вычислительной технике (ВТ) господствует принцип проектирования "снизу вверх". Согласно этому принципу, из-за стремления минимизировать стоимость аппаратных средств сначала разрабатывается некоторая универсальная аппаратура, обеспечивающая решение широкого круга проблем, а решение конкретных проблем возлагают на программистов. В результате такого положения вещей объекты манипулирования и соответствующие операции, реализуемые аппаратурой ЭВМ, редко бывают родственными объектам и операциям, применяемым в языках программирования. Это привело к образованию так называемого семантического разрыва, обусловленного различием логик внутреннего мира компьютера и реальной действительности. Причем по мере усложнения ПО семантический разрыв имеет тенденцию к увеличению [2].Поэтому в последнее время исследователи начинают склоняться к мысли, что более разумным является принцип конструирования исходя из принципа органического единства аппаратных средств и ПО [3]. В основе этого единства лежит концептуальная модель данных, соответствующая человеческим представлениям о реальной действительности. Если бы удалось на базе этой модели сконструировать аппаратуру, это привело бы к тому, что объекты и операции внутреннего языка компьютера были бы согласованы с объектами реальной действительности и отношениями между ними. Это, с одной стороны, привело бы к уменьшению программного слоя, предназначенного для согласования разницы между внутренним миром процессора и моделируемой РД. Такой принцип разработки средств ВТ называется проектированием "сверху вниз".Попытки проектирования "сверху вниз" предпринимались еще на ранних этапах развития ВТ и в настоящее время идет интенсивный поиск новых архитектур, которые могли бы составить конкуренцию фон-неймановской архитектуре хотя бы в некоторых узких предметных областях (ПрдО). В рамках этих исследований были разработаны: архитектура потоковой обработки [4,5], редукционные машины [6], Пролог-машины [7,8,9,10], машины баз данных (БД) [11,12,13,14,15,16,17, 18,19,20,21,22,23,24,25].Однако доминирующей архитектурой до сих пор остается фон-неймановская, а приведенные проекты, хотя и широко освещались, не смогли заменить фон-неймановские процессоры, оставаясь в основном в стенах научных лабораторий. Главная причина этого заключается в том, что разработанные модели данных, для поддержки которых были разработаны перечисленные процессоры, показывали хорошие результаты только в отдельных ПрдО. А отсутствие широкой пользовательской аудитории привело к тому, что интерес к данным направлениям работ постепенно угасал, и в последнее время относительно мало публикаций посвящается данным направлениям работ.Как мы уже отметили, существующие на сегодняшний день средства ассоциативной обработки информации не обладают достаточной емкостью, поэтому для решения проблемы большой емкости в ассоциативных ЗУ используется эмуляция ассоциативной адресации с помощью основного адресного доступа. При этом создаются специальные таблицы (справочники) для перевода ассоциативного запроса в соответствующий адрес. Таблицы называются списками ссылок или индексами, и с их помощью осуществляется доступ к конкретной ячейке памяти. Такой способ кодирования данных по содержанию оказался довольно удобным и эффективным при управлении БД, когда возникает необходимость манипуляции большими таблицами символов. Этот принцип пригоден для систем памяти почти неограниченного размера, так как его можно реализовать на обычном адресном ЗУ, и процесс поиска имени во многом напоминает ассоциативное воспоминание. Основная идея таких методов хранения состоит в размещении массива данных по адресу, значение которого вычисляется как функция соответствующего символического имени или некоторой части самих данных, используемой в качестве поискового ключа аргумента [26,27,28,29, 30,31,32,33].Для решения проблемы эквивалентности реализаций объектов, которая лежит в основе концептуальной модели данных, необходимо затронуть фундаментальные проблемы моделирования. Под моделью обычно понимается структура для хранения знаний; при этом запоминание связано с редуцированием информации, которое достигается в результате глубокого изучения моделируемой РД путем отвлечения от изменчивости рассматриваемых объектов и установления ограниченного числа инвариантных факторов, достаточно репрезентативно описывающих моделируемые объекты. Это позволяет обозначать полученные инварианты конечной системой символов, а затем установить правила оперирования с ними. В поисках таких обобщенных характеристик обычно обращаются к математике, так как строгая формулировка абстрактных понятий, имеющих обобщенный характер, является основной задачей этой дисциплины.Другая важная сторона моделирования заключается в том, что модель должна служить в качестве приблизительного заменителя моделируемого реального объекта. Здесь уже речь идет не о сокращении избыточности, а напротив, о том, что информация, содержащаяся в модели, должна быть достаточной, чтобы как можно более точно описать поведение моделируемого объекта.Таким образом. процесс моделирования вскрывает важное противоречие между невозможностью описания реальных объектов вне формальных средств и принципиальной неполнотой и незавершенностью этого описания. Разрешение этого противоречия нужно искать не в отказе от формальных методов описания РД, а в развертывании логического аппарата, являющегося связующим звеном между редуцированной и исчерпывающей информацией об описываемом объекте.Основная идея решения этой проблемы заключается в том, что в результате глубокого изучения процессов анализа и синтеза при восприятии и воспроизведении объектов РД человеком разработать такой формально-логический аппарат, который бы описывал механизмы обработки информации при переходе от полной информации к редуцированной и наоборот. Для этого необходимо решить три задачи:Во-первых, нужно определить, в какой форме будет храниться редуцированная информация.Во-вторых, какими формально-логическими средствами будет производиться преобразование исчерпывающей информации об объекте в редуцированную,В-третьих, каким образом будет осуществляться восстановление информации, утерянной при редуцировании описания объекта в модели. Другими словами, требуется формализовать не только формы обобщенногоотражения, но и процесс обобщенного отражения, который в памяти человека реализуется в форме анализа-синтеза, в ходе которого осуществляется обобщение и конкретизация, композиция и декомпозиция. По этой причине в нашем случае речь будет идти не о разработке ассоциативного запоминающего устройства, а о разработке ассоциативного процессора, в котором реализуются сложные процессы анализа-синтеза. Решив эти проблемы,мы можем надеяться на создание базового механизма моделирования объектов произвольной природы с очень широким спектром применения