Название: Средства data mining для нечетких реляционных серверов данных(Вельмисов А.П.,)

Жанр: Информационные системы и технологии

Просмотров: 3458


Актуальность проблемы

Проектирование сложных технических изделий выполняется в наши дни распределенным коллективом проектировщиков, использующих информационные технологии и работающих в условиях развитой корпоративной сети. В результатеработы разрозненных коллективов проектировщиков появляется информационное хранилище, содержащее архивы старых проектных решений, текущие проекты, электронные  описания  проектов,  файлы  стандартов  и  правил.  Международныестандарты (ISO-9000) требуют от предприятий иметь полное электронное представление изделий, причем, фактически данные представления не всегда структурированы   и   часто   представляют   собой   неупорядоченный   один   илинесколько информационных ресурсов. Проведение структуризации неупорядоченного набора файлов возможно только при участии эксперта, который знает специфику всех направлений деятельности проектного подразделения и имеетпредставление о тематике старых архивных проектов. При автоматизированном структурировании информационных ресурсов мы имеем дело с частотными словарями, где частота терма определяет принадлежность документа к той или иной тематике,  и  для  эксперта  удобно  оценивать  величину  частоты  для  конкретногодокумента в виде лингвистических понятий таких как «часто», «редко», «очень редко» и т.д. Проиндексировав все хранилище информационных ресурсов, эксперт получает отношение частот термов и документов и дает лингвистические оценкичастотным  характеристикам  термов.  Далее  требуется  кластеризовать  объекты,характеризующиеся нечеткими атрибутами в многомерном пространстве.В работах Э. Спирли, Р. Кимбала, Н. Пендса рассматриваются методы построения многомерной модели данных. В работах Д. Селко метод построениямодели основан на теории множеств. Задача создания и поддержания агрегатов по имеющимся детальным данным решается в работах отечественных ученых В. Дюка,А. Самойленко, в зарубежной литературе этот вопрос рассматривается в работах М. Суели, А. Ишикавы, Дж.. Рейншмидта, Т. Роббера. Методы очистки данных рассмотрены в работах Э. Рахма и Х. До. Ряд предложенных методов применены для  САПР,  но  конкретная  научно-техническая  задача  кластеризации  нечеткихданных для автоматизированного проектирования не решена в науке и практике.Таким образом, в теории и практике существует важная научно-техническая задача  создания  методов  и  средств  организации  информационного  обеспечениясистем автоматизированного проектирования (САПР), способного осуществлять кластеризацию неопределенных данных. С учетом вышесказанного разработка методов            кластеризации,   адекватных   проектной   информации,   и   структурно-функционального решения, является актуальной задачей.Цель работыЦелью диссертации является снижение трудоемкости формирования проектныхрепозитариев за счет использования   разработанных методов интеллектуального анализа нечетких данных.Для         методов          интеллектуального   анализа           нечетких        данных            необходиморазработать структурно-функциональное решение.Таким образом, объектом исследования является информационное обеспечение системы интеллектуального  анализа данных, а субъектом исследования – фактор

нечеткости характеристик информационных ресурсов, представимых в хранилище данных.Задачи исследованияДля достижения поставленной цели необходимо решить ряд задач:1. Исследовать особенности информационных ресурсов. Провести анализ результативности методов интеллектуального  анализа нечетких данных длязадач   структурирования     информационных     ресурсов.        Изучить          ранее разработанные методы интеллектуального           анализа данных, учитывающиенечеткость            атрибутов            объектов,        и          сделать           вывод о          возможности их применения.2.  Разработать            методы           кластеризации,          позволяющие автоматизированосформировать структуру проектного репозитария.3.  Разработать методику, позволяющую настраивать функции принадлежности нечетких атрибутов на основе не только оценок эксперта, но и фактическихданных.4. Разработать  модель  представления  объектов  проектирования  набором нечетких правил.5.  Разработать           структурно-функциональное       решение         для      извлечениязависимостей в виде правил из нечетких данных.6.  Разработать программную систему, выполняющую нечеткую кластеризацию для структурирования хранилища информационных ресурсов.7. Выполнить    с    помощью    разработанного    программного    решения интеллектуальный            анализ   информационных   ресурсов   и   осуществить структуризацию хранилища данных для проектной организации.Методы исследованияДля решения поставленных задач использовались методы таксономии, аппарат реляционной       алгебры,         методы           представления            знаний,           совокупность теорий,обобщенных направлением мягких  вычислений, и  проектирования программных систем.В  качестве  инструментальных  средств  использовались:  сервер  баз  данныхOracle9i, Java Developer Kit (Sun Microsystems), Borland Delphi 7, MySQL 4.1, PHP5.Научная новизнаВ  работе  проведено  исследование  проблемы,  в  котором  новыми  являются следующие результаты:1.  Предложен новый метод кластеризации нечетких данных. Отличие метода от известных заключается в том, что он позволяет кластеризовать сильно сгруппированные данные  при  отсутствии дополнительной информации оданных.    Метод позволяет       структурировать       информационные            ресурсы,описанные нечеткими характеристиками.2. Предложена новая модель содержательной и навигационной структуры проектного репозитария в форме набора нечетких правил.3. Сформирована новая методика использования интеллектуального анализа нечетких  данных    для    организации    проектных    репозитариев    приавтоматизированном проектировании.4. Разработано    новое    структурно-функциональное    решение    системы интеллектуального анализа нечетких данных.