WWW.OS.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Научные публикации
 

«РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ АВТОМАТИЗАЦИИ ПОЛНОТЕКСТОВОГО ПОИСКА ДОКУМЕНТИРОВАННОЙ ИНФОРМАЦИИ ПОВЫШЕННОЙ РЕЛЕВАНТНОС ...»

На правах рукописи

СЛЮСАРЬ Валентин Викторович

РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ

АВТОМАТИЗАЦИИ ПОЛНОТЕКСТОВОГО ПОИСКА

ДОКУМЕНТИРОВАННОЙ ИНФОРМАЦИИ ПОВЫШЕННОЙ

РЕЛЕВАНТНОСТИ В РАСПРЕДЕЛЕННЫХ

ПРОИЗВОДСТВЕННЫХ СТРУКТУРАХ

Специальность: 05.13.06 —

Автоматизация и управление технологическими процессами и производствами в приборо- и машиностроении

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва, 2007

Работа выполнена в Московском государственном институте электронной техники (техническом университете)

Научный руководитель Д. т. н., профессор Л. Г. Гагарина Официальные Д.т.н., профессор оппоненты Н. Н. Герасименко К.т.н., доцент С. А. Каратыгин

Ведущая организация ОАО “Институт электронных управляющих машин”, г.

Москва

Защита состоится «____»__________2007 года в ___:____ на заседании диссертационного совета _______ при Московском государственном институте электронной техники (техническом университете) по адресу:

124498, Москва, Зеленоград, проезд 4806, МИЭТ

С диссертацией можно ознакомиться в библиотеке МИЭТ.



Автореферат разослан «____»__________ 2007 г.

Ученый секретарь Д.т.н., профессор Диссертационного совета А. И. Погалов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. В настоящее время существует острая необходимость разработки моделей и средств, обеспечивающих эффективное управление технологическими и производственными процессами. Одной из важных составляющих при реализации систем управления технологическим процессом является организация эффективных процессов поиска документированной информации.

Указанная проблема особенно актуальна для распределенных производственных структур, отдельные элементы которых территориально разобщены и находятся на значительном удалении друг от друга.

В настоящее время существует и активно развивается целая отрасль информационных систем, предназначенных для обработки документированной информации, в частности, современные справочные систем, электронные энциклопедии, справочно-правовые системы, системы управления документами, системы автоматизации деловых процессов (workflow-системы), комплексы поддержки групповой работы и т.д. Для поиска информации, представленной в виде документов используются системы автоматизированного поиска документированной информации (САП ДИ). Однако в течение последних нескольких десятков лет список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем (ПС) и пользовательских интерфейсов, языки запросов, и т. д.

Поскольку в современных производственных системах количество документов, хранящихся в непрерывно пополняющихся электронных архивах, зачастую исчисляется десятками тысяч, важнейшим требованием к поисковым системам является обеспечение высокой степени релевантности – соответствия найденных документов информационной потребности пользователя. Следует отметить, что применяющиеся средства автоматизации производства ориентированы в первую очередь на управление технологическими процессами, а поиску релевантной документированной информации уделяется недостаточно внимания.

Таким образом, исследования, направленные на создание универсальных методов и алгоритмов поиска документированной информации в распределенных производственных структурах, являются актуальными.

Цели и задачи диссертационной работы Целью диссертационного исследования является разработка моделей и алгоритмов автоматизации поиска документированной информации в распределенных производственных системах, обеспечивающих повышенную релевантность и достоверность находимых документов.

Задачи исследования. Для достижения цели диссертационного исследования необходимо решение следующих задач.

1. Анализ структуры и функциональных возможностей современных автоматизированных систем управления производством.

2. Формализация задачи поиска документированной информации в распределенных производственных структурах.

3. Разработка моделей и алгоритмов полнотекстового запроса и поискового образа документа.

4. Создание экспертной модели поиска документированной информации.

5. Разработка комплексного алгоритма нахождения релевантной информации.

6. Построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах на основе предложенных моделей и алгоритмов.

Методы исследования. В диссертационной работе использованы методы системного анализа, теории информационных систем, элементы теории принятия решений, элементы теории вероятности, методы математического и имитационного моделирования.

Научная новизна работы состоит в создании новых моделей и алгоритмов, обеспечивающих повышенную релевантность и достоверность полнотекстового поиска документированной информации в распределенных производственных структурах. При этом получены следующие научные результаты.





1. Проведен аналитический обзор функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации.

2. Разработано формализованное представление полнотекстового документа в терминологии семантических сетей.

3. Разработана математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью поискового образа документа (ПОД).

4. Алгоритмически реализовано построение расширенного поискового образа документа, базирующегося на простом ПОД, а также комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем.

5. Создана концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов.

6. Создана и верифицирована имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации и ее верификация.

Практическая значимость работы заключается в расширении возможностей автоматизированного поиска документированной информации на производственных предприятиях. Представленные в работе алгоритмическая реализация построения расширенного поискового запроса и комплексный алгоритм нахождения релевантной информации направлены на решение практических задач поиска документированной информации в массивах электронных хранилищах.

Результаты имитационного моделирования подтверждают повышение эффективности поиска информации на основе предложенных моделей и алгоритмов по сравнению с традиционными. Использование предложенной алгоритмической реализации расширенного поискового образа документа, полученного в результате агрегирования знаний экспертов и пользователей САП ДИ при анализе проиндексированных документов, позволяет повысить количество релевантных документов, выдаваемых системой на 25-27% по сравнению с обычным запросом и долю достоверных документов, выдаваемых системой, на 5-7%.

Достоверность полученных результатов подтверждается результатами имитационного моделирования, доказавшими преимущества предложенных в работе методов и алгоритмов полнотекстового поиска документированной информации, выразившиеся в повышении релевантности находимых документов, а также успешным внедрением и эксплуатацией моделей и алгоритмов на предприятии «ООО ДУЭТ Ко».

Личный вклад автора. Все основные результаты получены автором лично.

Главными из них являются:

проведение аналитического обзора функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации;

формализация представления полнотекстового документа в терминологии семантических сетей;

разработка на основе теории графов математической модели полнотекстового запроса, коррелирующей с математической моделью ПОД;

алгоритмическая реализация построения расширенного поискового образа документа, базирующегося на простом ПОД;

выведение комплексного алгоритма нахождения релевантной информации на основе обратной связи с пользователем;

создание концептуальной модели функционирования САП ДИ как составляющей автоматизированной системы управления производством на базе разработанных математических моделей и алгоритмов;

построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах;

внедрение разработанных моделей, алгоритмов и программной реализации модели поиска документированной информации в технологический процесс ООО “Дуэт Ко”;

внедрение результатов диссертационной работы в учебный процесс кафедры информатики и программного обеспечения вычилительных систем Московского Государственного института электронной техники.

Реализация полученных результатов.

Все работы по реализации и внедрению проводились под руководством или при непосредственном участии автора. Результаты диссертационной работы используются в технологическом процессе фирмы “Дуэт Ко” в рамках опытной эксплуатации автоматизированной системы поиска архивной документации (благодаря использованию разработанных моделей и алгоритмов затраты рабочего времени специалистов на поиск документации снизились более чем в два раза, и на 25% уменьшилось количество нерелевантных документов, ошибочно получаемых пользователями)., а также в учебном процессе кафедры ИПОВС Московского Государственного института электронной техники при чтении дисциплин “Автоматизированные информационные системы”, “Проектирование информационных систем”, “Имитационное моделирование”.

На защиту выносятся следующие основные научные результаты:

1. Формализованное представление полнотекстового документа в терминологии семантических сетей.

2. Математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью ПОД.

3. Алгоритм построения расширенного поискового образа документа, базирующийся на математической модели полнотекстового запроса.

4. Комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем.

5. Концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов.

6. Имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации.

Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях.

1. V Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им.

Баумана, 2003.

2. 11 Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2004», МИЭТ, 2004.

3. VI Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им. Баумана, 2004.

4. Двенадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2005», МИЭТ, 2005.

5. V Международная научно-техническая конференция “Электроника и информатика - 2005”, МИЭТ, 2005.

6. Тринадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2006», МИЭТ, 2006.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из наименований и приложения, содержит 180 страниц текста, включая 117 страниц основного текста, 27 рисунков, 3 таблицы, 10 страниц списка используемой литературы из 119 наименований и 26 страниц приложений.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, формулируются общие проблемы, цели и задачи исследования, научное и практическое значение полученных результатов, рассматривается структура диссертации и взаимосвязь отдельных глав.

В первой главе проведен анализ структуры и функциональных возможностей систем управления производственным процессом.

Исследованы наиболее распространенные математические модели поиска документированной информации, показано, что основным их недостатком является отсутствие универсальных механизмов нахождения термов и построения поисковых образов документов.

Представлен аналитический обзор современных методов и средств поиска документированной информации в локальных вычислительных сетях.

Установлено, что все существующие системы поиска документированной информации обладают следующими недостатками:

низкое качество поиска при неоднозначности описания предмета поиска или при несовпадении моделей знаний о предметной области пользователя и системы, в случае использования таких моделей;

сильно затруднена интеграция механизмов поиска документированной информации в структуру системы управления производством;

сложность сочетания простого и расширенного поисковых запросов в рамках одного обращения пользователя;

отсутствие обратной связи с пользователем, что сильно затрудняет задачу поиска и приводит к получению нерелевантных ответов вследствие составления некорректного или неполного запроса.

В целом, все существующие поисковые системы плохо приспособлены для работы в производственных структурах и существует насущная необходимость в разработке системы, ориентированной на работу в таких структурах и способной успешно решать задачи поиска документированной информации, относящейся к производственной деятельности предприятия.

На основе проведенного анализа сформулированы цели и задачи диссертационного исследования, главными из которых являются формализация задачи поиска документированной информации, разработка моделей и алгоритмов полнотекстового запроса и поискового образа документа и разработка комплексного алгоритма нахождения релевантной информации.

Во второй главе дается формализованное представление задачи поиска информации. Любая поисковая система представляет собой простейший объект, поддающийся математическому описанию и моделированию.

Процессы системы, являющиеся формальными моделями таких сложных интеллектуальных функций, как анализ, обобщение, логический вывод и др., моделируются с помощью формализованных процедур двух типов:

преобразование потоков сообщений – информационный поиск, отбор из поискового массива множества сообщений, подчиняющихся определенным формальным сообщениям;

преобразование сообщений или документов – составление поисковых образов индексов (индексирование) документов.

Принимая во внимание требования, предъявляемые к эффективности поиска информации, в работе предложена обобщенная схема САП ДИ, представленная на рис. 1. Для автоматической индексации документов в структуре САП ДИ выделен контур документов и контур запросов. Контур документов включает процессы получения множества документов L0 и преобразования каждого документа.

b1k b1k lk = … lk’ = … bDk bik’

–  –  –

Любую систему, в частности САП ДИ, можно рассматривать как конечную совокупность некоторого множества элементов Е = {ej} и управляющего механизма M, устанавливающего связи между элементами системы и управляющего ими, образуя единую функционирующую систему.

Множество элементов системы представлено в виде информационных и управляющих элементов, отличающиеся набором выполняемых функций. Информационные элементы выполняют исключительно функции преобразования информации и не влияют непосредственно на другие элементы системы. Управляющие элементы воздействуют на информационные, но не подверженные влиянию других элементов.

Аналогично связи системы подразделяются на информационные

–  –  –

(для передачи преобразуемой информации) и управляющие. Поскольку каждая система формируется в определенной среде, то говорят, что система формируется множеством внутренних состояний (ресурсов) Z={Zk}. Использование множества этих ресурсов, т.е. переход из одного внутреннего состояния в другое, происходит под воздействием определенной стратегии (плана). Таким планом (стратегией) является функция перехода Н из одного внутреннего состояния системы в другое:

H: (X*Z)h Z.

Предложенная структура характеризуется наличием множества входных значений Х={Xi}, операторов входа K={Ki}, выходных значений Y={yj} и выходных операторов Q={Qj} (также называемых воздействиями).

Функционирование системы определим как распределенное во времени Т преобразование информации из входного значения Х в выходное значение Y:

T : {T X ; T Y }.

Преобразование информации в каждой системе реализуется через заданный алгоритм, который для системы называется функцией выхода

E:

E : {( X * Z ) Y }.

На САП ДИ, т.е. на алгоритм ее функционирования, могут воздействовать некоторые управляющие воздействия Z.

Характеристика саморегулирующейся системы выражается через параметр F. Таким образом, систему можно представить как упорядоченную совокупность элементов вида S = T, K, X, Q, M, Y, H, F, Z, E.

Функционирование САП ДИ, как и любой системы, основано на математической модели, включающей в себя представление поискового образа документа, представление запроса пользователя и метод вычисления релевантности поискового образа запросу пользователя.

С целью унификации процедуры анализа документов различных форматов построена модель полнотекстового документа в терминах семантических сетей. При разработке моделей используются не символы, составляющие содержание текстовых блоков, а более высокоуровневые объекты — термы. Предложенная модель позволяет представить текст документа в виде сети взаимосвязанных фреймов, взаимодействующих с помощью горизонтальных и вертикальных связей. Горизонтальные связи соединяют элементы на одном уровне в иерархии документа. Это, как правило, фреймы одного и того же типа.

Вертикальные связи соединяют фрейм корень и его узловые вершины (у текста это разделы, у абзаца - предложения) и обычно соединяют фреймы разных типов.

Такая модель не приспособлена для удобного представления в памяти компьютера. С целью облегчения работы программиста и ориентации модели документа на использование в различных алгоритмах, модифицируем полученную модель так, чтобы она имела максимальную регулярность (в идеале реляционная таблица). Для этого выделим общие (или присущие почти всем элементам) поля в фрейм-шаблон, а дополнительные атрибуты свяжем при помощи ссылки (в теории фреймов подразумевается что значением слота может являться другой слот, причем меняющийся от фрейма к фрейму, однако при разработке программ необходимо придерживаться более строгой формализации модели).

Полученная модель шаблона имеет вид:

Fr = ( I d, lF,Trm, Fnext, Fup, Attr ), где Fr - фрейм шаблон, Id - уникальный идентификатор фрейма, lF вертикальный уровень фрейма, Trm - текстовое содержимое фрейма (список термов), Fnext - указатель на фрейм того же уровня или пустой указатель, Fup - указатель на фрейм более низкого уровня или пустой указатель. Attr — указатель на дополнительные атрибуты или 0 в случае их отсутствия.

Такое определение позволяет описать все необходимые фреймы в виде регулярной структуры, но при этом, в ряде случаев, не используются некоторые из слотов.

Использование предложенной модели позволяет ввести дополнительный уровень абстракции, между исходным документом и поисковым образом документа. Его введение позволяет при разработке алгоритма построения ПОД не вдаваться в особенности конкретного типа документа. Алгоритм становится независимым от формата предоставления документа. Кроме того, алгоритм построения подобного иерархического объекта может быть далеко не тривиален, поэтому, в данной работе в качестве входных данных для алгоритма построения ПОД выступает подобная структура, уже содержащая в себе всю необходимую для алгоритма информацию в удобном для использования виде.

Разработаны модели полнотекстового запроса и поиска документа в распределенной производственной структуре. Документ хранится в базе данных САП ДИ в виде своего образа, заменяющего текст документа при выполнении операции вычисления релевантности.

Задача построения модели ПОД является одной из наиболее важных, так как именно ПОД определяет, насколько точно может быть восстановлено исходное содержание документа, необходимое для вычисления степени релевантности. С целью повышения информативности ПОД и учета семантики исходного документа в данной работе предлагается использовать аппарат семантических сетей, позволяющий максимально полно описывать содержание документов.



Поисковый образ документа представляется в виде неориентированного нечеткого графа второго рода:

G d = ( X d, U d ), где Xd - нечеткое множество вершин, – носитель нечеткого множества Хd:

Xd = { Xd ( x) / x }, x Xd, Xd.

Элементы множества Хd соответствуют термам, содержащимся в документе. Функция Xd(x)принадлежности определяет степень принадлежности терма документу (его вес при описании документа списком термов).

Нечеткое множество Ud = { ( x, y ) /( x, y ) }, x, y Xd Ud описывает множество ребер, соответствующих отношению «ассоциативной связности» термов документа. Функция принадлежности Ud ( x, y ) определяет степень связанности термов х и у в пределах документа и зависит от частоты совместной встречаемости термов в документе, близости их положения в тексте Поисковый запрос определяется как R = ( X r, Gr,U r, F r ), где Xr – нечеткое множество термов запроса, xXr, Gr – нечеткое неориентированное отношение ассоциативной связанности термов запроса, определяемое через желаемую связность термов x и у в искомом документе, представляющую из себя число от 0 до 1, Ur – нечеткое множество, описывающее связность термов запроса аналогично множеству Ud. Для вычисления релевантности запроса и, на основании отношений Ur и Fr, строится объединенное отношение U’r.

В простейшем случае, оно может быть построено путем объединения этих отношений с использованием операции максимума:

Ur ( x, t ) = max(Ur ( x, t), Fr ( x, t)).

Таким образом разработанные модели поиска обеспечивают более высокую информативность запроса по сравнению с традиционными, а также позволяют абстрагироваться от особенностей различных форматов документов при построении их поисковых запросов.

Третья глава посвящена разработке и исследованию алгоритмов поиска документированной информации на основе предложенных выше моделей.

Алгоритм создания ПОД (рис.2), соответствующего модели, построенной во второй главе, разбивается на две независимые части:

алгоритм выделения термов документа с вычислением их весов и алгоритм нахождения весов связей между термами. Суть алгоритма заключается в последовательном просмотре исходного документа для вычисления статистической информации о встречаемости термов в пределах документа. Эта информация используется для вычисления степени принадлежности каждого терма документу. Затем из полученного списка термов, содержащихся в документе, выбирается определенное количество наиболее значимых термов (по значению их степени принадлежности). Полученное множество составляет множество вершин ПОД, которое и сохраняется в базе данных.

Исходными данными алгоритма являются количество документов;

модель документа в виде сети фреймов, содержащая иерархическое описание текста; количество термов в документе; номер документа;

количество термов в базе данных. Выходные данные: количество термов в поисковом образе документа; документ, представленный в виде списка термов; степени принадлежности термов документу;

модифицированные частоты встречаемости термов в документах.

–  –  –

Рис. 2. Схема алгоритма создания поискового образа документа Данным алгоритмом не предусматривается появление новых термов (новые термы могут появляться либо путем их целенаправленного введения в систему экспертами, либо автоматически при анализе документов), синхронизация добавляемой информации и хранимой базы данных и ряд других особенностей, характерных для реальной САП ДИ, но не существенных при разработке алгоритмов.

Для устранения упомянутых недостатков проведена алгоритмическая реализация поискового запроса. Использование некоторых запросов основано на предположении, что пользователь обладает некоторой дополнительной информацией о предмете поиска, которая и должна быть указана в запросе. Созданный в этом случае запрос уже является расширенным и содержит всю необходимую для поиска информацию. В этом случае, задачей САП ДИ является распознавание запроса и построение его модели, являющейся входной информацией для алгоритма поиска релевантных документов. Каждому терму устанавливается степень его пригодности для расширения. Полученный вариант расширенного запроса предъявляется пользователю, который корректирует его путем исправления весов, удаления или добавления термов. Откорректированный таким образом запрос передается на вход САП ДИ, инициируя новую итерацию цикла расширения запроса.

На основе предложенных моделей и алгоритмов разработан объединяющий их комплексный алгоритм поиска релевантной информации (рис.

3), основанный на следующих предположениях:

1) набор документов, среди которых ищутся релевантные ссылки, предварительно проиндексирован и для каждого документа при помощи вышеприведенного алгоритма составлен ПОД, на основании которого делается заключение о релевантности документа запросу;

2) обращение к базе знаний экспертов и базе, полученной на основании обобщения ПОД документов не требуется. Вся необходимая информация выражена в расширенном запросе. Расширенный запрос является единственным входным параметром для работы алгоритма.

–  –  –

Рис. 3. Схема комплексного алгоритма нахождения релевантной информации.

Построена концептуальная модель основных функций модуля поиска информации, создана функциональная (рис. 4) и иерархическая структура САП ДИ в составе производственной структуры. Функциональные задачи, решаемые САП ДИ, связаны со стратегическим, перспективным и текущим планированием развития предприятия, учетом, контролем и регулированием активов. Для этого во всех структурных подразделениях предприятия создаются АРМ специалистов, обеспечивающие решение задач по управлению активами и ресурсами предприятия – обеспечение непрерывности производственного цикла, поступления сырья, материалов и ресурсов, отгрузку готовой продукции и т.д.

–  –  –

Рис. 4. Функциональная структура системы автоматизированного поиска документированной информации производственного предприятия.

Выделены основные функции системы и активности, возникающие в процессе ее функционирования.

Четвертая глава посвящена программной реализации и имитационному моделированию САП ДИ.

Программная реализация имитационной модели, использующей предложенные в диссертационной работе математические модели и алгоритмы, использует объектно-ориентированный подход.

При построении имитационной модели особое внимание уделялось организации квазипараллелизма функционирования модели. Значительное число функциональных действий компонент САП ДИ одинаково. Каждое действие представимо в виде набора простейших операций, кроме того, возможно построение функциональных зависимостей их выполнения друг от друга.

Для имитации поведения системы используется так называемый транзактный способ организации квазипаралеллизма, при котором однотипные функциональные действия объединяются.

Возникновение тех или иных событий в модели становятся так называемые транзакты – запросы на выполнение определенной группы объединенных функциональных действий. Связь между компонентами модели устанавливается с помощью системы очередей, выбранных дисциплин поступления и способов извлечения из них транзактов. В любой момент времени может выполняться только одно функциональное действие и пользователя интересует влияние этого действия на поведение всей системы.

На рис. 5 представлена обобщенная схема функционирования имитационной модели функционирования САП ДИ. Источниками образования транзактов являются запросы пользователей на поиск информации. В блоке «поглотитель» уничтожаются все добравшиеся до него транзакты. Блок обработки запросов сканирует списки запросов и создает новее транзакты (запросы либо действия). Для исследования был выбран архив документов, состоящий из управленческих документов административного характера и технической документации производства и реализации осветительного оборудования (технологические нормативы, договоры реализации и доставки, отчеты, накладные и т.д.) Архив содержит более 2 тысяч документов. Размер архива составляет порядка 80 Мб. Размер документов колеблется от 1 Кб до 2 Мб.

Для моделирования использовался персональный компьютер с процессором Intel Pentium IV 1000, 512 Мб RAM, ОС Windows XP; в качестве СУБД применялся программный пакет MS Access 2003.

–  –  –

Рис. 5. Обобщенная схема имитационной модели функционирования системы автоматизированного поиска документированной информации.

С целью оценки эффективности разработанных моделей и алгоритмов было проведено сравнение эффективности функционирования смоделированной САП ДИ и традиционных информационно-поисковых систем по сравнению с “эталонной поисковой системой” – гипотетической системой, находящей абсолютно все релевантные данному запросу документы, находящиеся в хранилище. Сравнение проводилось по двум критериям – количество выданных системами релевантных документов и процентная доля выданных релевантных документов от общего количества выдаваемых в ответ на запрос документов. Следует отметить, что различия в эффективности проявляются по мере увеличения объема обрабатываемого массива. Как видно из рис. 6 при небольших размерах архивов (до 1000 документов) различия в результатах экспериментального поиска практически незаметны. По мере роста Количество выдаваемых релевантных документов обрабатываемого массива различия между традиционной методикой поиска и предложенной становятся все более очевидными.

При моделировании был использован архив размером около 2000 документов. При таком размере архива разница в количестве выдаваемых релевантных документов составляет около 15-20%. При увеличении объема архива до 5 000 документов эта разница превысит 30%. На рис. 7 представлено сравнение процентной доли истинно релевантных (достоверных) документов среди выдаваемых поисковыми системами. Как видно из графика, различия эффективности систем также проявляются по мере роста объема обрабатываемого архива. При объеме архива в 2 000 документов доля достоверных документов, найденных моделируемой САП ДИ, составляет 99,4%, против 98% у САП ДИ, функционирующей по традиционной методике. С ростом объема обрабатываемого архива эта разница также становится более заметной. Так, при объеме архива в 5 000 документов, доля достоверных документов, найденных моделируемой САП ДИ, составит почти 99%, в то время как традиционная система выдает менее 96%.

В заключении диссертации сформулированы основные выводы и полученные результаты, поставлены вопросы для дальнейших исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В ходе выполнения диссертационной работы рассмотрены вопросы разработки моделей и алгоритмов автоматизации полнотекстового поиска документированной информации в распределенных производственных системах, при этом получены следующие научные и практические результаты.

1. Формализована задача поиска документированной информации, основанная на построении модели запроса пользователя и вычислении релевантности документа (сравнения поискового образа документа и запроса пользователя).

2. Создана обобщенная схема функционирования системы автоматизированного поиска документированной информации (САП ДИ).

3. На основе теории семантических сетей разработано формализованное представление полнотекстового документа, позволяющее абстрагироваться от особенностей конкретных форматов документов при построении их поисковых запросов.

4. На основе теории графов созданы и исследованы математические модели полнотекстового запроса и полнотекстового образа документа, обеспечивающие более высокую информативность поискового запроса пользователя по сравнению с традиционными моделями поиска информации.

5. Создана алгоритмическая реализация расширенного запроса, заключающаяся в последовательном просмотре термов запроса с последующим поиском и уточнением синонимов и гипонимов для каждого из них.

6. На основе предложенных математических моделей и алгоритмов разработан комплексный алгоритм нахождения релевантной информации, позволяющий по выбору пользователя строить простой, либо расширенный поисковый запрос.

7. Построена концептуальная модель функционирования САП ДИ и обоснованна возможность ее интеграции в структуру автоматизированной системы управления производством.

8. На основе объектно-ориентированного подхода создана, верифицирована и программно реализована имитационная модель поиска документации в информационном пространстве электронного хранилища технических документов.

9. Результаты имитационного моделирования, проведенные автором, показали, что предложенные модели и алгоритмы обеспечивают повышение полноты ответа при построении расширенного запроса (количества выдаваемых релевантных документов) на 25-27 % по сравнению с обычным запросом и повышение достоверности выданных системой документов на 5Материалы диссертационной работы использованы при создании учебных материалов дисциплин “Автоматизированные информационные системы”, “Проектирование экономических информационных систем”, “Имитационное моделирование”.

Основные положения и результаты диссертации опубликованы в следующих работах.

1) Слюсарь В.В. Информационная поддержка стратегического аспекта инновационного развития предприятия. Материалы V Всероссийской международной конференции "Антикризисное управление в России в современных условиях", М.: МГТУ им.

Баумана, 2003.

2) Слюсарь В.В. Внедрение автоматизированных информационных систем в государственных учреждениях. Тезисы докладов 11-й Всероссийской межвузовской научно-технической конференции студентов и аспирантов "Микроэлектроника и информатикаМ.: МИЭТ, 2004.

3) Гагарина Л.Г., Слюсарь В.В. Электронный офис: внедрение автоматизированных информационных систем в государственных учреждениях. Журнал “Служба кадров и персонал” №10, 2004.

4) Слюсарь В.В. Опыт внедрения документоориентированных информационных систем в государственных и бюджетных организациях. материалы VI Всероссийской международной конференции "Антикризисное управление в России в современных условиях", М.: МГТУ им. Баумана, 2004.

5) Слюсарь В.В. Критерии оценки эффективности работы автоматизированных информацонно– поисковых систем. тезисы докладов 12-й Всероссийской межвузовской научно-технической конференции студентов и аспирантов "Микроэлектроника и информатика-2005" М.: МИЭТ, 2005.

6) Гагарина Л.Г., Слюсарь В.В. Методы и способы оценки эффективности работы систем поиска электронных документов.

Оборонный комплекс – научно-техническому прогрессу России:

Межотр. научно-тех. Журнал/ВИМИ. – М., 2005.

7) Разработка математической модели оценки эффективности подсистемы поиска информации в системах автоматизированного делопроизводства и документооборота. Тезисы докладов V международной научно-технической конференции “Электроника и информатика - 2005”.

8) Гагарина Л.Г., Слюсарь В.В. Методология оценки эффективности работы автоматизированной информационно-поисковой системы на основе интегральных критериев уровня качества поиска.

Научно-технический журнал “Известия высших учебных заведений. Электроника.” №2, 2006. М., МИЭТ, 2006.

9) Концептуальная модель оценки эффективности работы информационно-поисковой системы. // Тезисы докладов 13-й Всероссийской межвузовской научно-технической конференции студентов и аспирантов "Микроэлектроника и информатикаМ.: МИЭТ, 2006.

10) Румянцева Е.Л., Слюсарь В.В. Информационные технологии.

Учебное пособие. М., ИНФРА-М, 2006.

11) Гагарина Л.Г., Маклакова Т.Н., Слюсарь В.В., Чумаченко П.Ю.

Проблемы обеспечения информационной безопасности VPN-сети в информационнои пространстве высшего учебного заведения.

Оборонный комплекс – научно-техническому прогрессу России:

Межотр. научно-тех. Журнал/ВИМИ. – М., 2006.





Похожие работы:

«В.М. Фокин ТЕПЛОГЕНЕРАТОРЫ КОТЕЛЬНЫХ МОСКВА ИЗДАТЕЛЬСТВО МАШИНОСТРОЕНИЕ-1 В.М. Фокин ТЕПЛОГЕНЕРАТОРЫ КОТЕЛЬНЫХ МОСКВА «ИЗДАТЕЛЬСТВО МАШИНОСТРОЕНИЕ-1» УДК 621.182 ББК 31.361 Ф75 Рецензент Доктор технических наук, профессор Волгоградского государственного технического университета В.И. Игонин Фокин В.М. Ф75 Теплогенераторы котельных. М.: «Издательство Машиностроение-1», 2005. 160 с. Рассмотрены вопросы устройства и работы паровых и водогрейных теплогенераторов. Приведен обзор топочных и...»

«Серенков П.С. публикации Основные публикации Монография: 1. Серенков, П.С. Методы менеджмента качества. Методология описания сети процессов: монография / П.С. Серенков, А.Г. Курьян, В.Л. Соломахо. – Минск: БНТУ, 2006. – 484 с.Основные статьи в научных журналах: 1. Серенков, П.С. Качество как объект менеджмента / П.С. Серенков // Экономика, финансы, управление. – 2001. – № 1. – С. 27–33.2. Опыт разработки, внедрения и развития системы менеджмента качества в соответствии с требованиями МС ИСО...»

«ВВЕДЕНИЕ Актуальность работы. В последнее время неизменно растет интерес крупных промышленных предприятий к технологиям гибки труб и профилей. Виды гибки и принципы работы оборудования изучают специалисты, занимающиеся развитием производства в судостроении, энергетическом машиностроении, автомобилестроении, авиаи космическом машиностроении. Наиболее высокие требования к изогнутому профилю или трубе предъявляют автомобильная и аэрокосмическая промышленности. В настоящий момент при изготовлении...»

«МАШИНОСТРОЕНИЕ –––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– А.И. САМАРКИН, Е.А. ЕВГЕНЬЕВА РАСЧЕТЫ ТЕХНОЛОГИЧЕСКОЙ ОСНАСТКИ С ТЕРМОЗАЖИМОМ МЕТОДОМ КОНЕЧНЫХ ЭЛЕМЕНТОВ В статье рассмотрены вопросы расчета технологической оснастки с термозажимом методом конечных элементов. Одним из узких мест в машиностроении является фрезерование пресс-форм и компонентов штампов. Они изготавливаются из жаропрочных или жаростойких сталей и, зачастую, подвергаются фрезерованию после...»

«МАШИНОСТРОЕНИЕ И СМЕЖНЫЕ ОТРАСЛИ МАШИНОСТРОЕНИЕ И СМЕЖНЫЕ ОТРАСЛИ Математическое моделирование рабочего процесса камеры ракетного двигателя малой тяги на кислородно-водородном топливе В.Л. Салич, Южно-Уральский государственный университет (НИУ) В статье представлены полученные в ходе РДМТ, успешно применялось математическое модеисследований рекомендации, касающилирование, например [3–8]. еся математического моделирования процессов в С помощью численного моделирования внуткамерах...»

«Вестник СГТУ. 2011. № 2 (56). Выпуск 2 УДК 621.9.06.08 Е.А. Сигитов, М.В. Виноградов ПЕРСПЕКТИВЫ ПРИМЕНЕНИЯ МНОГОСТУПЕНЧАТЫХ ФРИКЦИОННЫХ ПЕРЕДАЧ ДЛЯ СВЕРХПРЕЦИЗИОННОЙ ОБРАБОТКИ Рассмотрены состояние и перспективы применения многоступенчатых фрикционных передач для сверхпрецизионной обработки. Фрикционная передача, сверхпрецизионная обработка, точность Машиностроение E.A. Sigitov, M.V. Vinogradov PERSPECTIVES OF APPLICATION OF MULTISTAGE FRICTION GEARS FOR SUPERPRECISION HANDLING Are considered...»

«Краткий анализ исследований проблем развития регионального машиностроения Д. В. Демаков В последние годы в России ведется активный поиск путей повышения эффективности использования сырьевых, интеллектуальных, финансовых, кадровых и других ресурсов страны, способствующих модернизации российской экономики. По нашему мнению, в рамках решения этой актуальной для России проблемы находится и проблема развития отечественного машиностроения и, в том числе, региональное машиностроение. Учитывая...»

«МЕТОДЫ КОНТРОЛЯ И ДИАГНОСТИКА В МАШИНОСТРОЕНИИ УДК 620 192 63 МЕТОДИКА ИСПЫТАНИЙ РАДИОГРАФИЧЕСКИХ ПЛЕНОК Е.И. Косарина, А.В. Степанов, А.А. Демидов, О.А. ВИАМ, Москва, Российская Федерация e-mail: kosar@mail.ru; avsavia@yandex.ru; lagazz@yandex.ru; Fess.m.d@gmail.com; rentgen_lab22@viam.ru В соответствии с европейскими нормами ЕN 584-1:2006 радиографические пленки делятся на шесть классов С1-С6. Важной задачей является выявление соответствия радиографической пленки тому или иному классу по...»

«Научно-издательский центр ИНФРА-М ЭФФЕКТИВНЫЕ РЕШЕНИЯ ДЛЯ ВУЗА ВСЕ ЗНАНИЯ В ОДНО КАСАНИЕ Научно-издательский центр ИНФРА-М представляет электронно-библиотечную систему ZNANIUM.COM Что такое Znanium? Это крупные научные и учебные издательства, с которыми вы уже давно знакомы, по их книгам выучилось не одно поколение специалистов во всех областях знаний. Теперь эти издательства пришли к вам в новой цифровой форме с новыми возможностями! Вот перечень основных издательств, которые разместили на...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО НАУЧНЫХ ОРГАНИЗАЦИЙ Федеральное государственное бюджетное учреждение науки Институт машиноведения им. А.А. Благонравова Российской академии наук ИНСТИТУТ МАШИНОВЕДЕНИЯ ИМ. А.А. БЛАГОНРАВОВА РОССИЙСКОЙ АКАДЕМИИ НАУК (ИМАШ РАН) создан в 1938 г. ИМАШ РАН — ведущий в стране научный центр, решающий фундаментальные научные проблемы машиноведения. Разработки ИМАШ РАН известны и признаны во всем мире. Результаты фундаментальных исследований Института на протяжении всей его...»

«Техникалыќ єылымдар 5. Сидоров А.И. Восстановление деталей машин напылением и наплавкой. М.: Машиностроение, 1987.– 192 c.6. Клименко Ю. В. Электроконтактная наплавка. М.: Металлургия, 1998. 128 с. REFERENCES 1. The use of modern materials for the manufacture and repair of machinery parts /N.R. Scholl, V.D. Losev, L.Y. Ikonnikova, V.Y. Prokhorov. – Ukhta: UGTU, 2004. 251 p. 2. Tolstov I.A., Korotkov V.A. Handbook on surfacing. – Chelyabinsk: Metallurgy, 1990. 341 p. 3. Ginberg A.M. Increasing...»

«ТЕПЛОВЫЕ МОДЕЛИ ЭЛЕКТРОПРИВОДА Таранов Дмитрий Михайлович к.т.н., доцент кафедры ЭЭО и ЭМ Чуркин Александр Евгеньевич к.т.н., доцент кафедры ЭЭО и ЭМ Лыткин Алексей Владимирович аспирант кафедры ЭЭО и ЭМ Азово-Черноморский инженерный институт ФГБОУ ВПО “Донской Государственный Агроинженерный Университет”, Россия, город Зерноград Аннотация: В статье представлены различные тепловые модели электропривода, выражены преимущества четырёхмассовой модели, с помощью которой можно определять тепловое...»

«К 45-летию факультета химического машиностроения НТУ «ХПИ» _ Товажнянский Л.Л., Ведь В.Е. РАЗВИТИЕ НАУЧНЫХ НАПРАВЛЕНИЙ КАФЕДРЫ «ИНТЕГРИРОВАННЫЕ ТЕХНОЛОГИИ, ПРОЦЕССЫ И АППАРАТЫ» НТУ «ХПИ» Кафедра «Общая химическая технология» (ОХТ) Харьковского химикотехнологического института (ХХТИ) была основа в 1927 году. Первым заведующим кафедрой был профессор Некрич М.И., автор учебника по курсу общей химической технологии и 130 научных работ. Широкое использование в промышленности получили исследования,...»

«2. Терещенко В.Г. О возможности учёта геометрических свойств физической величины в формуле размерности // Актуальные проблемы строительства, транспорта, машиностроения и техносферной безопасности: материалы III-eй ежегодной научно-практич. конф. Северо-Кавказского федерального университета «Университетская наука – региону». – Ставрополь: ООО ИД «ТЭСЭРА», 2015. – С. 227-233.3. Киттель Ч., Найт У., Рудерман М. Механика. Берклеевский курс физики: Учебник для вузов. 3-е изд., стер. – СПб.:...»

«В.В. Горский, В.А. Сысенко УДК 533.16 Моделирование расхода газа через ламинарный пограничный слой на поверхности полусферы в сверхзвуковом воздушном потоке © В.В. Горский1,2, В.А. Сысенко2 МГТУ им. Н.Э. Баумана, Москва, 105005, Россия ОАО «ВПК «НПО машиностроения», г. Реутов Московской обл., 143966, Россия Приведены результаты оценки точности для инженерной методики расчета массового расхода газа через ламинарный пограничный слой на полусфере из работы [1]. Предложена аналогичная инженерная...»





 
2016 www.os.x-pdf.ru - «Бесплатная электронная библиотека - Научные публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.