Название: Средства data mining для нечетких реляционных серверов данных(Вельмисов А.П.,)

Жанр: Информационные системы и технологии

Просмотров: 3308


Апробация работы

Основные положения и результаты диссертации докладывались и обсуждались:на       четвертой       международной       научно-технической       конференции«Математическое  моделирование  физических,  экономических,  технических,социальных  систем  и  процессов»  (Ульяновск,  2001);         на  международных конференциях      «Континуальные       логико-алгебраические        исчисления            инейроинформатика в  науке,  технике  и  экономике»  (Ульяновск,  2001,  2002,2003,   2004,   2005,   2006);   на   XXXV,   XXXVI,   XXXVII,   XXXIX   научно-технических конференциях УлГТУ (Ульяновск, 2001, 2002, 2003, 2005); на международной конференции “Dynamical systems modeling and stability investigation” (Киев, 2001); на международной конференции «Математическое моделирование, статистика и информатика в современном управлении экономикой» (Самара, 2001); на 8-ой и 10-ой национальных конференциях по искусственному интеллекту с международным участием (Москва, 2002, 2006); на научной сессии МИФИ-2002 (Москва, 2002);  на международной научно- технической конференции «Интеллектуальные системы» (Москва, 2006); на международной научно-технической конференции «Интеллектуальные САПР» (Москва, 2006); на всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (Москва, 2006); на международной конференции “Applications of mathematics in engineering and economics” (Bulgaria, Sofia, 2006). Публикация результатов работыПо теме диссертации опубликовано 24 печатных работы.Личный вкладВсе  результаты,  составляющие содержание  диссертации, получены  авторомсамостоятельно.Структура и объем диссертацииДиссертационная работа изложена на 176 страницах машинописного текста,содержит 14 рисунков,  8 таблиц и 3 диаграммы, состоит из введения, четырех глав, заключения, списка литературы из 127 наименований и 2 приложений на 19 страницах.Содержание работыВо введении дано обоснование актуальности темы диссертации, сформированы объект и предмет исследования, изложены цель и соответствующие ей задачи работы, перечислены методы исследований.В первой главе представлен   обзор и сравнительный анализ теоретических результатов и практических работ, посвященных интеллектуальному анализу данных, представлению и обработке неточной информации в системах управления базами данных.Обзор выполнен с двух точек зрения. Во-первых, приведено краткое описание теорий,  учитывающих  неопределенность,  неточность  информации.  Рассмотренысуществующие научно-исследовательские теоретические и практические разработки в  этой  области,  существующие  на  данный  момент.  Анализ  показывает,  чтозаложенные в теории нечетких множеств возможности представления и обработки субъективной   информации   делают   ее   привлекательной   для   моделирования

рассуждений человека, а сама теория нечетких систем успешно применяется в таких интеллектуальных системах, как САПР и экспертные системы. В работе теория нечетких систем будет применена для представления нечетких данных в СУБД.Во-вторых, обзор посвящен рассмотрению вопроса анализа данных. Проведен анализ    методов          интеллектуального   анализа           данных           для      решения            задачкластеризации. Рассмотрены современные системы интеллектуального анализа данных, применяющиеся в них методы и алгоритмы, и тенденции их развития.Современный уровень распространения автоматизации деятельности приводитк формированию на предприятиях и в организациях баз данных больших объемов. Такие базы данных являются фактографическими, сформированными на основании решения задач учетного характера.   В качестве примера можно привести базы данных транзакций биллинговых систем, автоматизированные системы бухгалтерского и управленческого учета, хранилища данных космических снимков, данные о совершенных покупках в супермаркетах и так далее. В подобных базах данных скрыты закономерности объектов и деятельности. Выявление таких законов, их вербализация, преобразование к формализованной аналитической форме, способствует формированию конструктивных моделей проблемных областей, в том числе математических. Извлеченные из баз данных законы проблемной области позволяют обеспечить оптимизацию деятельности предприятий и организаций, поддержку управленческих решений.Традиционным  средством  формирования  математических  моделей  является статистический анализ, где, в основном, для задачи анализа данных в этом контекстеприменяются регрессионные методы. Применение статистических методов для задачи анализа данных затруднено тем, что часто для конкретной задачи из какой-либо предметной области выборка характеризуется малыми объемами и нечисловым характером атрибутов. В частности, в макроэкономических, социологических, маркетинговых   базах   данных   широко   используется   лингвистическая   формапредставления данных. Вышеперечисленные трудности привели к формированию нового научного направления – интеллектуального анализа данных.Значительных            результатов    названное       направление  достигло         в          извлечении знаний   из            реляционных баз          данных.       Программные           продукты,                  строящиематематические модели на основе реляционных баз данных, получили название Data Miner (DM). Научные результаты в данной области позволили создать новые технологии и виды комплексов программ, в частности,  DM содержатся в старшихверсиях серверов данных. Несмотря на названные результаты, в интеллектуальном анализе данных остается ряд нерешенных задач. Использование нечисловых атрибутов, в том числе нечетких, не поддержано разработанными методами анализа.Фрагментарность выборки и нечисловые атрибуты не позволяют выразить содержание объекта в традиционной математической форме уравнений или формул и   предполагают   использование   баз   правил   (знаний).   Отсутствуют   методыобъективной настройки функции принадлежности.Итогом  первой  главы  стал  вывод  о  том,  что  разработка  новых  методов интеллектуального     анализа            данных           и          модернизация            известных      методов          длянечетких реляционных серверов данных является актуальной задачей.

Во второй главе рассматриваются теоретические основы предлагаемого метода нечеткой  кластеризации  и     модель  нечеткой  гибридной  нейронной  сети. Создаваемые в рамках данной работы алгоритм нечеткой кластеризации и модель нечеткой гибридной нейронной сети находятся на стыке таких областей, как теория нечетких множеств, таксономия и нейронные сети. До недавнего времени эти направления развивались независимо друг от друга, и в каждой области сложились свои способы описания данных и операций над ними.В первой части данной главы приводится краткое описание задачи нечеткой кластеризации, определяется совокупность понятий, область применения, свойстваопераций и предлагаемый алгоритм нечеткой кластеризации.Функция оценки основана на мерах сепарабельности и компактности кластеров.

Пустьj = 1,2..., c . X = {x1 , x2 ,...xN }-  множество     данных,          rj -           центр  j -го     кластера,        где

C

 
Определение 1.Функцию принадлежности µ       ,j⎧⎪ j = 1,2,..., c для ∀ x ∈ X определим

так ⎪1,

⎨0

 

c

 
µ ( x) = ⎪j⎪ если d ( x, r) = 0,, если d (x, rk ) = 0, k ≠  j,−1

 

j

 
⎛   c    d ( x, r ) ⎞

⎪⎜ ∑ d ( x, r ) ⎟ иначе.

⎩⎝ v =1        v    ⎠c            N

Таким образом ∑ µC j  ( x) = 1, ∀ x ∈ Xj =1 и  ∑ µC j  ( xk ) ≤ N , j = 1,2,..., c. .k =1

Определение  2.  Нечеткое  разбиение  может  быть  преобразовано  в  четкое следующим образом:

C

 

j

 
µ          ( xk )hard ⎪⎧1, если= ⎨ µС  ( xk ) = max{µC   ( xk )}j            1≤v ≤c         v.

⎪⎩0 иначе.

Очевидно, что µC j ( x) = 1 , если rj - ближайший центр к точке xk .

Определение 3.Дано множество     кластеров C = {C1 , C2 ,..., Cc }для      множества      объектов

X = {x1 , x2 ,..., x N }. Для каждого Ci  ∈ C , если Ci не единичное множество, компактность

Cicpi  = обозначим      как12 2 cpi и          определим      так

∑ µi ( x j )x j ∈Ci , x j ≠ri d ( x j , ri )

2

 
∑ µi ( x j ) ,           где µi ( x j ) -         значение         функции

x j Ci , x j ≠ri

принадлежности2 ≤ c ≤ N . x j к кластеру Ci , ri - центр кластера Ci , с – количество кластеров и

Определение 4.Дано множество     кластеров C = {C1 , C2 ,..., Cc }для      множества      объектов

X = {x1 , x2 ,..., x N }.           Для      каждого Ci  ∈ C ,         если    Ci не        единичное      множество,

сепарабельность Ci        обозначим      через2 spi и          определим      как

⎛        ⎞

spi = ⎜ min{d (ri , rj )}⎟ , где r - центр кластера  C , r - центр кластера C  , с –

⎜        ⎟⎝    1≤ j ≤c ,i ≠ j           ⎠        i           i           j           j

количество кластеров иОпределение 5. 2 ≤ c ≤ N .

Дано   множество     кластеров C = {C1 , C2 ,..., Cc }для      множества      объектов

X = {x1 , x2 ,..., x N }.           Для      каждого Ci  ∈ C ,         если    Ci не        единичное      множество,

сепарабельность/компактность Ci обозначим как sci и определим как sci  = spi × cpi .

Таким образом «наихудший» кластер будет иметь наименьшее значение sci .

Алгоритм слияния применяет меру схожести для выбора наиболее похожих пар кластеров. В алгоритме слияния выбирается наиболее «плохой» кластер и затем удаляется.  Все  элементы,  принадлежащие  данному  кластеру,  перемещаются  в«ближайший» кластер, после чего происходит переопределение центров кластеров.Алгоритм слияния предполагает следующие шаги.

Вход:  оптимальное  множество     кластеров C* = {C *1 , C *2 ,..., C *c +1 } для      множества

данных X = {x1 , x2 ,..., x N }, где c ≥ 2 .

Выход: множество кластеров C = {C1 , C2 ,..., Cc }.

Шаг  1.  Создается массив r* = {r *1 , r *2 ,..., r *c +1 } такой,  что  каждое r *i  ∈ r * является

центром          кластера C *i  ∈ C * .   Вычисляется  значение         sc         для      каждого C *i  ∈ C * ,

удаляется из r * центр кластера с наименьшим значением  sc . Формируется новый

массив r = {r1 , r2 ,..., rc }.

Шаг 2. Выводится новое множество кластеров C = {C1 , C2 ,..., Cc }, основанное на r .Процедура пересчета центров кластеров.

Вход:  Массив           центров          кластеров r* = {r *1 , r *2 ,..., r *c } для      множества      данных

X = {x1 , x2 ,..., x N }.

Выход: Новый массив центров кластеров r = {r1 , r2 ,..., rc }.

Шаг 1. Выбирается наиболее близкий центр r *i для каждого элемента x j ∈ X и  x j

включается в кластер C *i с центром r *i .

Шаг 2. Вычисляется медиана для каждого C *i как новый центр ri , все новые центры

группируются в массив r  так, что r = {r1 , r2 ,..., rc }.

Шаг 3. Если r* ≠ r и не достигнут порог количества итераций, то переход на шаг 1.

Шаг 4. Выход r .Многошаговый Maxmin алгоритм.

Вход: множество данных  Xцелочисленное значение i . = {x1 , x2 ,..., x N }, количество кластеров c , точка старта  p ,

Выход: Множество кластеров C = {C1 , C2 ,..., Cc }.

Шаг 1. Инициализируем сепарабельность/компактность SC , SC = 0 .

Шаг 2. Определяем  p как точку старта для модифицированного Maxmin алгоритма для получения множества кластеров C* = {C *1 , C *2 ,..., C *c }.Шаг 3. Пересчитываем центры кластеров, используя процедуру пересчета для C * .

Шаг  4.  Вычисляем  значение  сепарабельности/компактности SC * для C * .  Если

SC* > SC , то SC = SC * , C = C * .

Шаг 5. Если i > c , то i = 1 , p = r *i , где r *i - центр C *i , i = i + 1. Переход на шаг 2 до

сходимости алгоритма или достижения точки останова.Шаг 6. Вывод C .Гибридный алгоритм кластеризации.

Вход:  множество  данныхкластеров. X = {x1 , x2 ,..., x N },   maxnum  –  максимальное  количество

Выход: Оптимальное множество кластеров C = {C1 , C2 ,..., Cc }.

Шаг 1. copt = max num , c = max num , i = 1 . Случайным образом выбирается объект x ∈ X в

качестве         точки  старта p .        Выполняется многошаговый          maxmin           алгоритм        с

параметрами X , c, i, p для поиска оптимального множества кластеров C = {C1 , C2 ,..., Cc }

для c . Вычисляется функция оценки SC для C .Шаг       2.         Выполняется алгоритм        слияния          для            получения      множества      кластеров

C ' = {C '1 , C '2 ,..., Cc },  выбирается центр C '1 в  качестве точки  старта          p , c = c − 1, i = 2 .

Выполняется многошаговый maxmin алгоритм с  параметрами X , c, i, p для  поиска

оптимального  множества  кластеров C* = {C *1 , C *2 ,..., C *c } для      c .  Вычисляется

функция оценки  SC  для C *  и принимается как SC * . Если SC* > SC , то SC = SC * ,

C = C * , copt  = c . Повтор шага 2, пока c ≤ 2 .

1

 

2

 
Шаг 3. Вывод: C = {C , C ,..., C opt } - оптимальное множество кластеров.

Таблица 1. Сравнение алгоритмов кластеризации

Алгоритм

Применимость к сильносгруппирован ным данным

Необходимость указания количествакластеров

Чувствительность к входным параметрам

Применимость к неравномернораспределен ным данным

Гибридныйалгоритм

Да

Нет

Нет

Да

k-средних

Да

Да

Да

Да

Субстрактивный

Да

Нет

Да

Нет

Maxmin

Да

Нет

Да

Да

Fuzzy c-means

нет

да

Да

Да

Во второй части главы дано описание структуры нечеткой нейронной сети,описание нейронов и слоев, также приводится алгоритм ее обучения.

Гибридная  нечеткая  нейронная  сеть.  Предлагается  следующая  структура гибридной нечеткой нейронной сети:Слой 1. Первый слой выполняет раздельную фаззификацию каждой переменнойxi , i = 1,..., N , определяя для каждого  k -го правила вывода значение коэффициента

принадлежности µ ( k ) ( x ) в  соответствии с  применяемой функцией фаззификации

A         i

(например,     с          обобщенной   функцией       Гаусса) µ A ( xi ) =1 1⎛ xi  − ci  ⎞ 2bi .           Это

+ ⎜     ⎟⎝    σ i      ⎠

параметрический      слой    с          параметрами c ( k ) ,σ ( k ) , b ( k ) ,           подлежащими            адаптации      в

процессе обучения. j           j           j

Количество  нейронов,  связанных  с   каждым  из  входов,  определяется  из исходных данных, исходя из представления нечеткой переменной в базе данных. Так как для каждого атрибута объекта хранится словарь лингвистических переменных в виде набора функций принадлежности, то количество нейронов определяется количеством лингвистических переменных в словаре.  Выходы узлов данного слоя – это степени принадлежности входных переменных. Значения данных параметров корректируются в процессе обучения сети.Слой  2.         Каждый          нейрон            этого   слоя     является          нечетким        нейроном            «И»     и моделируется t-нормой. Количество нейронов определяется количеством правил,полученных на выходе при функционировании сети кластеризации. Слой выполняет

агрегирование  отдельных  переменных xi ,  определяя  результирующее  значение

N

 
коэффициента           принадлежности w  = µ ( k ) ( x) для      вектора           x .        Агрегирование

A

 

k

 
выходного  результата  сети  производится  по  формуле y( x) = 1 M∑ wk yk ( x) ,  где

Nyk ( x) = pk 0  + ∑ pkj x j  .j =1 ∑ wkk =1 k =1

Слой 3. Каждый нейрон этого слоя является нечетким нейроном «ИЛИ» и моделируется S k-нормой. Количество нейронов определяется количеством классов, полученных в результате кластеризации.Слой  4.  Слой  представляет  собой  генератор  функции  Такаджи-Суджено-КангаN

(TSK),  рассчитывающей значения yk ( x) = pk 0  + ∑ pkj x j  .  В  этом  слое  производитсяj =1

умножение сигналов yk ( x) на значения wk , полученные в предыдущем слое. Это

параметрический  слой,  в  котором  адаптации  подлежат  линейные  веса pkj для

k = 1,..., M  и j = 1,..., N , определяющих функцию следствия модели TSK.

При обучении гибридной сети адаптации подлежат параметры pkj четвертого

слоя и параметры нелинейной функции принадлежности первого слоя. Уточнение производится в следующей последовательности.

1. Рассчитываются линейные параметры pkj третьего слоя.

M         ⎛        N⎜

 
⎟        w'k  = N∏ µj =1 ( k )A ( x j )

∑ ∏ µ

 
y( x) = ∑ w'k  ⎜ pk 0 + ∑ pkj x j ⎟ , где N   ⎡   N (           )⎤

для k =1     ⎝k = 1,..., M . j =1      ⎠ ( r )⎢  Ar =1  ⎣  j =1 x j   ⎥⎦

2. Рассчитываются фактические выходные сигналы сети y(i), i = 1,..., p

3. Рассчитывается вектор ошибки e = y − d .

4. Корректируются параметры c ( k ) ,σ ( k ) , b ( k ) первого слоя.

c ( k ) (n + 1) = c ( k ) (n) − η ∂E (n) k          j           j

j

 
j           j           c ∂c ( k )

σ ( k ) (n + 1) = σ ( k ) (n) − η ∂E(n)

j

 
j           j           σ  ∂σ ( k )

b ( k ) (n + 1) = b ( k ) (n) − η ∂E(n) , где n - номер очередной итерации.

j           j           b ∂σ ( k )

j

 
Данный алгоритм является частным случаем алгоритма обратного распространения ошибки. Сеть обучается до достижения заданного уровня ошибки, количества эпох обучения или времени обучения.В третьей главе рассматривается практическая реализация системы интеллектуального анализа нечетких данных (Fuzzy DataMiner), хранение которых осуществляется в промышленной базе данных Oracle9i. Основное внимание уделяется описанию схемы данных, позволяющей представить в реляционной базе данных нечеткие данные, механизмам и алгоритмам обработки этих данных, а также описанию структурных и функциональных схем реализации алгоритмов кластеризации  и  эмулятора  нечетких  нейронных  сетей.  Кроме  этого  обоснован выбор  инструментальных средств и  рассмотрены направления дальнейшего развития системы. В качестве инструментального средства для оперирования нечеткими данными использовались процедурные расширения сервера баз данных Oracle9i.В модуле кластеризации реализовано два алгоритма нечеткой кластеризации: гибридный алгоритм нечеткой кластеризации и модифицированная нейронная сеть Кохонена. Программное обеспечение реализовано в  среде  разработки      BorlandDelphi Enterprise 7.0.   Данная среда реализации была выбрана из-за удобства использования готовых визуальных компонентов и простоты работы с различными источниками данных. Данный модуль использует клиент-серверную архитектуру,что позволяет работать с удаленными СУБД.

MainFCGA     NskDBConnection     DBTablesРисунок 1. Схема модуля нечеткой кластеризации реализацииВ модуле построения нейронных сетей реализована модель гибридной нечеткой нейронной сети. Программный модуль позволяет создавать нейронные сети различной конфигурации с использованием как четких, так и нечетких нейронов.Top (аутентификация пользователя)

Service(связь с СУБД) Main(главная страница)

Menu(меню системы)

Count (анализ данных/ генерация правил) Learn(обучение сети) Net (управление сетями) Users (управление пользователями)

Func (модуль расчетов) Net_Show(просмотр сети)Ney (создание/ редактирование нейронов) Net_edit (создание/ редактирование сети)Ling (создание/ редактирование лингвистических переменных)

Рисунок 2. Модуль реализации гибридной нечеткой нейронной сети

Программное обеспечение реализовано в виде вэб-интерфейса, что позволяет работать с модулем удаленно. Для реализации был выбран язык PHP 5, так как он обеспечивает наиболее простую схему реализации при использовании данной технологии. В качестве СУБД для хранения оперативных данных была выбрана MySQL 4.1, так как она может функционировать под операционными системами семейства Windows и Unix.Таким образом, третья глава содержит описание практической реализации механизмов хранения нечетких данных в СУБД и их анализа. Разработанная система–          универсальное    инструментальное    средство,    которое    открывает    новые возможности для исследования скрытых зависимостей в нечетких отношениях.В четвертой главе рассматриваются решения задач построения информационных ресурсов при автоматизированном проектировании, в которых были использованы методы нечеткой кластеризации, нечеткая СУБД c расширенной реляционной моделью, учитывающей нечеткость данных. Основная особенность этих решений состоит в возможности представления и обработки нечеткой информации об информационных ресурсах.Первая задача – это задача организации структурированного информационного хранилища из разрозненных информационных ресурсов, относящихся к различнымтекущим и архивным проектам. Для ее решения использовалась интеллектуальная система поддержки принятия решений (ИСППР). Данная система состоит из трехкомпонент: СУБД, подсистема классификации и кластеризации, подсистема генерации правил. Отличительной особенностью рассматриваемой ИСППР является возможность обработки не полностью определенной информации.

Подпись: Количество кластеровПодпись: Количество кластеровНечеткая БД Настройка функции принадлежности

Сеть Кохонена классификация ГАК кластеризация, классификация ННС классификация, оптимизация правил

Модуль генерации правилБаза правилРисунок 3. Реализация ИСППР

Для анализа эксперту предлагается частотный словарь, характеризующий предметную область и набор файлов, характеризующихся частотой использования в них того или иного терма. Для упрощения работы эксперт характеризует частоту использования терма  в  документе  в  виде  лингвистической переменной, то  есть«очень мало», «мало», «средне», «много», «очень много».Для анализа использовалась выборка из 119 документов, характеризуемых 57 термами. С помощью использования гибридного алгоритма кластеризации было получено  разбиение  на  51  кластер.  Экспертным  путем  было  определено необходимое  количество  уровней  дерева  каталогов  информационного  ресурса равное 6. Кластеризация проводилась в 6 этапов: деление на 2, 5, 10, 20, 30, 40, 51 кластеров. После проведения кластеризации алгоритмом Кохонена получена структура дерева каталогов, изображенная на Рисунке 4. Для оценки адекватности кластеризации приводятся краткие описания документов из кластеров 2 и 3. Описания и названия документов не использовались в качестве анализируемых данных.Таблица 2. Описание 2 кластера

№ документа

Описание документа

1

ПРИБОР. Таблица и методика проверки

2

Модуль "имя модуля". Таблица проверок

3

Таблица и методика проверки

4

Таблица и методика проверки

5

Таблица и методика проверки

6

Руководство по эксплуатации

Таблица 3. Описание 3 кластера.

№ документа

Описание документа

1

Перечень средств вычислительной техники

2

Перечень средств вычислительной техники

3

Перечень средств вычислительной техники

4

Описание применения

5

Описание применения

6

Описание применения

7

Описание применения

Вторая   задача   –   структурирование  информационных  ресурсов   в   рамках договора НИР 100-НИЧ с ФНПЦ «ОАО НПО МАРС».Для структуризации было представлено 567 документов, охарактеризованных частотным словарем из 5717 термов. С помощью ИСППР было получено разбиениена 272 кластера, представляющее собой древовидную структуру информационного ресурса. Описания и названия документов не использовались в качестве анализируемых данных.В результате кластеризации получено разбиение на 272 кластера; 167 кластеров состоят из 1 документа, 46 – из 2 документов, 23 – из 3 документов, 17 – из 4 документов, 5 – из 5 документов, 2 – из 6 документов, 2 – из 7 документов, 2 – из 8

документов, 2 – из 9 документов, 2 – из 10 документов, 1 – из 12 документов, 1 – из14 документов, 1 – из 17 документов, 1 – из 23 документов.Количество элементов в кластерахДиаграмма 1. Количество элементов в кластерахРазработанное      программное обеспечение   и          результаты     экспериментов переданы ФНПЦ «ОАО НПО МАРС».Программное обеспечение  позволило обработать массив из 567 документов за2 часа. При ручном формировании исходной структуры репозитария кластеризация документов потребует трудозатрат не  менее, чем  35  рабочих дней  при  среднейпроизводительности эксперта 0, 5 часа на один документ.Третья  задача  –  анализ  данных  по  результатам  проведения  анкетирования,разработанного  институтом  социально-экономических  проблем  народонаселения при Российской академии наук «Социально-экономическое положение населенияРоссии». Выборка данных для анализа представлена результатами проведения анкетирования в  г.  Димитровград Ульяновской области. Анкета  состоит  из  129пунктов (438 вопросов). Для проведения опроса случайным образом были отобраны1080 человек.На некоторые из вопросов нельзя дать четких ответов, например, вопрос №46«Как часто Вы работаете дома по вечерам и в Ваши выходные дни?». Варианты ответов: часто, редко, никогда. Кластеризация таких данных сложна, так как при делении на классы необходимо объединять различные   лингвистические метки. Данные, полученные на основе анкетирования, были погружены в нечеткий реляционный сервер данных. В результате были получены данные, пригодные для автоматизированной обработки  информации  с  помощью  DM.  Нечетким  меткам были поставлены в соответствие функции принадлежности.По результатам    анализа           можно сделать           вывод о          выделении            кластера,представители которого имеют две квартиры и большую жилплощадь. Также можно

отметить, что они более приспособлены к экономической ситуации, верят в себя и часто работают дома. Причем денежные поступления у них не больше, чем у остальных. Похоже, что они после школы начали работать и преуспели в профессиональном плане.Причиной    отсутствия     четкого           разделения            между социальными слоями общества  являются  особенности  исходных  данных,  рассмотренные  ниже.  Какпоказывает результат, подавляющее большинство людей относят себя к среднему социальному классу. К высшему классу отнесли себя менее 1\% опрошенных.При   кластеризации           по            субъективным           атрибутам      получаем        следующие результаты представленные в Таблице 4.Таблица 4. Результаты кластеризации

Вопрос

Класс 1

Класс 2

Класс 3

56

Общественное положениесемьи

Среднее

Низкое

Низкое

73*

Уровень            материальнойобеспеченности

4,20

2,73

2,35

74*

Степень профессионализма

6,09

4,76

3,29

75*

Приспособленность            кэкономической ситуации

5,34

3,07

1,88

76*

Зависимостьблагосостояния            от индивидуальных усилий

6,06

3,27

8,00

77*

Общественное положение

4,72

3,17

2,88

78.2

Слой  общества  для  Вашейсемьи

Средний слой

Нижесреднего

Среднийслой

129

Изменится ли ваша жизнь

Не изменится

Скорееухудшится

Скорееухудшится

* -по 9-бальной шкалеРазбиение на классы1 класс2 класс3 классДиаграмма 2. Разбиение на классыЯвно выделяется класс людей среднего положения, нормально обеспеченных, хорошо знающих свое дело, хорошо приспособленных и верящих в то, что положение в стране не ухудшится. Представители третьего класса считают, что положение их семьи и уровень обеспечения низкий, приспособленность к ситуации очень низкая, причем они знают, что их состояние полностью определяется их собственными усилиями. Свою квалификацию оценивают как низкую и думают, что жизнь  ухудшится.  Второй  класс  похож  на  третий  с  той  разницей,  что  его

представители считают себя немного более приспособленными, уверены в свой квалификации, хотя и не верят в свои силы.Для анализа эффективности разработанной системы поддержки принятия решения при выполнении кластеризации нечетких данных был проведен отдельный эксперимент,   позволяющий   провести   такой   анализ.   Эксперимент   состоял   вкластеризации нечетких данных, характеризующих 100 документов 5717 термами. Данный эксперимент состоял в нахождении наиболее значимых термов, характеризующих предметную область. При кластеризации измерялось затраченноена это время и количество задаваемых кластеров.Были получены следующие результаты:Таблица 5. Результаты эксперимента анализа эффективности.

Количество документов

Время обработки,сек