Similar presentations:
Управление метаданными
1.
ЕВРАЗИЙСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТData-аналитика (Обработка и анализ данных)
Управление метаданными
Полегенько Ирина Геннадьевна
кандидат технических наук
ассоциированный профессор
2.
• «Метаданные» - один из наиболее популярных терминовв ИТ в настоящее время
• Употребление его особенно активизировалось с появлением Веб
• Но трактовка этого термина не устоялась до сих пор
• Метаданным посвящены тысячи публикаций, но большинство
посвящено обсуждению конкретных стандартов
• Мало публикаций концептуального характера
• Существуют заблуждения, касающиеся свойств и функций
метаданных, хронологии возникновения термина
• Основная цель доклада – обсудить смысл термина метаданные,
свойства и функции информационных ресурсов этого вида
• Метаданные - особый вид информационных ресурсов
• Метаданные «горизонтальной» сферы («универсальные») и
метаданные «вертикальной» сферы «специализированные»).
2
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
3.
Немного истории - 1• Метаданные начали использоваться в ИТ задолго до рождения термина
• Несколько примеров:
описания типов данных в программах на языках программирования
описания файлов, встроенные в программы и в спецификациях на
языках управления заданиями (IBM JCL)
описания форматов отчетов в языке IBM RPG
поисковые образы документов в ранних ИПС
диаграммы потоков данных в CASE-инструментах и др.
• Данные в операторах языков программирования и др. языков: description,
definition, declaration (и не только в них) – разновидности метаданных
• Когда возник термин метаданные?
• Одно из странных распространенных заблуждений: этот термин возник в
1999 г., когда директорат DCMI опубликовал спецификацию DC 1.1
• Можно было ожидать, что термин метаданные родился в области
технологий баз данных.
3
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
4.
Немного истории - 2• В работе: James Fry, Davis W. Jeris. Toward a Formulation and Definition
of Data Reorganization /SIGMOD Workshop 1974. Ann Arbor, Michigan
ошибочно утверждается, что термин был введен в статье:
G.H. Mealy. «Another Look at Data». Proc.1967 FJCC, AFIPS vol. 31.
• В статье «Metadata» англоязычной Википедии ссылаются на отчет:
P. Bagley. Extension of Programming Language Concepts. Philadelphia: University
City Science Center, November 1968. В нем действительно используется
термин метаданные.
• Статистический анализ ACM SIGMOD Anthology (с ретроспективой
от 1969 г.) показал: в области БД термин метаданные начал активно
использоваться на пороге 1980-х гг., хотя использовался и ранее
• Дальнейшая активизация его использования связана с рождением
XML-технологий и концепции Semantic Web; в их контексте, он чаще
всего трактуется как описание контента информационных ресурсов
• Сфера применения метаданных очень широкая, электронные
библиотеки – лишь одна из областей, где они используются.
4
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
5.
Об определении термина метаданные• Что же такое метаданные? Проблемы лаконичности определения.
• Много различных трактовок в литературе, большинство не являются
достаточно полными или даже ошибочны
• Ряд примеров определений - в тексте статьи (см. Труды RCDL-2012)
• Распространенное определение «Метаданные – это данные о данных»
не охватывает все виды метаданных, используемых в современных ИТ,
и в малой степени содержательно
• В работе Ling Liu, M. Tamer Ozsu (eds.). Encyclopedia of Database Systems. Springer,
2009. 748 p. (870 авторов, более 3000 статей) дано определение:
«Метаданные – это данные, связанные с каким-либо элементом
данных».
Понятие элемент данных не определяется , ряд положений статьи
подвержен критике, сосуществуют Metadata и Meta data; не определены
термины Data, Database, Data Model, но определяются составные термины
• В энциклопедии A. Ralston, E.D. Reylly, D. Hemmendinger (eds.).
Encyclopedia of Computer Science, 4th edition. John Wiley & Sons Ltd, 2003. - 2034 p.
термин метаданные не определяется. Не определяются и Data, Information;
Database – определяются только реляционные
.
5
XIV Всероссийская научная конференция RCDL-2012. Переславль-Залесский, 15-18 октября 2012 г.
6.
Почему не устоялось определение термина• Большое многообразие видов метаданных, обусловленное:
множеством сфер применения с различными потребностями пользователей
разнообразием природы описываемых ресурсов
разнообразием подходов к представлению метаданных
• Недостаточная компетентность авторов публикаций, посвященных
метаданным, которая вводит в заблуждение читателей: во многих
публикациях рассматривается частный вид метаданных, не делается
должных оговорок, в результате неправомерно обобщаются их свойства,
присущие частному случаю
• Большое количество сообществ занято созданием систем метаданных
• Существование двух, все еще не согласованных подходов к пониманию
смысла метаданных:
подход библиотечного сообщества, истоки которого - в технологии
документальных ИПС (это, главным образом, метаданные текстовых систем)
подход сообщества CS, истоки которого - в области технологий баз данных
и др. направлений ИТ, связанных с управлением данными и знаниями.
6
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
7.
Часто встречающиеся заблуждения• Метаданные могут быть только у структурированных данных
• Метаданные являются структурированными данными
• Метаданные для Веб являются слабоструктурированными данными
• Функция метаданных - описание семантики информационных ресурсов
• Семантические метаданные могут использоваться только для
структурированных данных
• Метаданные – это данные о данных
• Ошибочные представления о времени рождения этого термина.
Например, упоминавшееся утверждение о том, что термин метаданные
появился в 1999 г., когда директорат DCMI опубликовал DC 1.1.
Но: NCSA/OCLC Metadata Workshop (март 1995), результатом которого стало
учреждение инициативы Дублинского ядра и создание DCMI.
NCSA = National Center Supercomputing Application
OCLC = Online Computer Library Center
7
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
8.
Расширение видов описываемых ресурсов• Первоначально метаданные использовались для описания
разнообразных информационных ресурсов
• Теперь, вместе с тем, они описывают и ресурсов других видов:
пользователей систем (их профили)
авторов представленных в ЭБ публикаций
организации – создатели и/или владельцы информационных ресурсов
либо ИТ-сервисов (например, владельца веб-сервиса в реестре UDDI)
концептуальные схемы предметных областей
онтологии предметных областей
интерфейсы веб-сервисов
бизнес-процессы
потоки работ
объекты на географических картах (символами легенды)
различные аспекты создаваемых систем
(UML-диаграммы в CASE-инструментах).
• Именно учитывая такое более широкое назначение термина метаданные,
правомерно использовать более общий термин метаинформация.
8
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
9.
Примеры метаданных - 1• В технологиях баз данных:
концептуальные схемы предметных областей
схемы баз данных
описания междууровневых отображений схем в системах баз данных
• В технологиях интеграции данных:
локальные схемы источников данных
глобальные схемы
описания отображений между локальными схемами интегрируемых
источников и глобальной схемой
онтологии локальных источников и общей онтологии системы
интеграции данных
описания отображений между онтологиями локальных источников и
общей онтологией
характеристики регистрации источников в посредниках в системах
виртуальной интеграции данных.
9
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
10.
Примеры метаданных - 2• В технологиях текстового поиска:
идентификаторы текстовых документов
наборы значений индексирующих атрибутов документов
индексы коллекций документов в системах текстового поиска
библиографические описания документов
аннотации публикаций
каталоги коллекций документов
наборы ключевых слов документов
рубрики классификаторов для документов
наборы значений элементов метаданных DC
индексы УДК
индексы ISBN монографий
• В CASE-технологиях:
UML-диаграммы проектов разрабатываемых систем
диаграммы IDEF
ER-диаграммы.
10
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
11.
Примеры метаданных - 3• В веб-технологиях:
гипертекстовая разметка веб-страниц
наборы имен и значений параметров тегов META в веб-страницах
разметка фрагментов веб-страниц средствами микроформатов
(hCard, hReview, hProduct, hRecipe и др.)
описания типов XML-документов (DTD)
XML-схемы для типов XML-документов
RDF-спецификации ресурсов
описания онтологий на языке OWL или OWL2
семантические аннотации веб-страниц или их фрагментов
• В технологии веб-сервисов:
описания интерфейсов веб-сервисов средствами языка WSDL
описание характеристик веб-сервисов в регистре UDDI
описание организаций-владельцев веб-сервисов в регистре UDDI.
UDDI = Universal Description Discovery & Integration (консорциум OASIS)
UDDI Registry – Microsoft, IBM и Ariba
11
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
12.
Основные свойства метаданных - 1• Относительный характер разделения информационных
ресурсов на данные и метаданные
• Разнообразие областей, в которых используются метаданные,
и видов описываемых ресурсов
• Зависимость свойств метаданных от характера использующей
их системы, вида описываемых ресурсов, используемых ИТ,
потребностей пользователей систем и т.п.
• Зависимость состава метаданных от информационной
архитектуры системы (примеры в области БД и Веб)
• Различная степень гранулярности описания ресурса.
12
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
13.
Основные свойства метаданных - 2• Метаданные горизонтальной сферы («универсальные») /
вертикальной сферы («специализированные»)
• Автономные (отчужденные от описываемого ресурса)/встроенные
• Независимые/зависимые от контента описываемых ресурсов
• Системные/пользовательские метаданные
• Структурированные/неструктурированные/слабоструктурированны
е метаданные
• Cтатические/динамические (например, схема БД и каталог ЭБ)
• Формализованные/неформализованные метаданные
• Явно/неявно представленные (например, HTML-разметка / семантика
ссылки в научной публикации)
• Многоуровневость метаданных: метаданные – это тоже данные, для
них могут быть метаданные. Отсюда термины:
мета-метаданные, мета-мета-метаданные…. (MOF, DC).
13
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
14.
Функции метаданных - 1• Функции метаданных зависят от конкретной сферы и условий их
использования
• Далеко не исчерпывающий список функций:
Обеспечение интероперабельности и повторного использования ресурсов
Обеспечение интеграции данных из множества источников
Описание предметной области ИС: концептуальная схема, онтология
Описание баз данных и других репозиториев структурированных данных,
поддержка механизмов управления их ресурсами: схемы БД
Описание других источников данных - контент ЭБ, открытые архивы,
веб-сайты: каталоги ЭБ и веб-сайтов, репозитории метаданных OA
Описание отдельных информационных объектов - таблиц БД, веб-страниц,
информационных объектов в ЭБ: описание таблицы в схеме БД, разметка
веб-страницы, каталожная запись MARC или другие дескрипторы, поисковый
образ документа в дескрипторной ИПС.
14
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
15.
Функции метаданных - 2Описание семантики источника информации, отдельного информационного
объекта или его фрагмента: рубрики рубрикаторов научной информации, набор
значений элементов DC, семантическая (в частности, онтологическая)
аннотация ресурса или его фрагмента, разметка средствами
микроформатов, семантическая аннотация веб-страницы
При онтологическом аннотировании данных онтология = метаданные, при
онтологическом аннотировании метаданных онтология =
метаметаданные
Описание представления данных на разных уровнях информационной
архитектуры: внешняя, концептуальная и внутренние схемы БД, разметка XMLстраницы (иерархия элементов документа и XSL-спецификация)
Идентификация описываемых ресурсов: первичный ключ таблицы БД, атрибут
ID в DTD XML-документа, URL и URI, координаты точки в ГИС, DOI, ISBN, ISSN,
штрих-код
Обеспечение функций управления данными БД и других источников
информационных ресурсов
Поддержка функций поиска информационных ресурсов.
15
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
16.
Функции метаданных - 3Верификация данных на основе описаний структуры и ограничений
целостности: схема структурированных данных, DTD или
XML-схема
Описание для пользователей свойств, назначения и других
характеристик ресурсов (обычно на естественном языке)
Описание ограничений доступа к информационным ресурсам
Описание профилей пользователей: полномочия, информационные
потребности и пр.
Организация распространения информационных ресурсов: на основе
описаний ресурсов и информационных потребностей пользователей
Тематическая систематизация коллекций информационных ресурсов:
на основе рубрикаторов, тематических каталогов
Описание авторских прав на интеллектуальную собственность
Использование для наукометрии в ЭБ: семантика связей,
рубрикаторы.
16
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
17.
Классификация метаданных• Возможные классификации метаданных:
по их функциям
по уровням абстрактности
по их свойствам
по многим другим критериям
• Популярна агрегированная функциональная классификация:
описательные: контент ресурса, библиографические данные,
аннотация, идентификаторы (URI, DOI, УДК…)
структурные: общая структура ресурса, ее компоненты
(часть схемы базы данных)
административные: даты создания, обновления, владелец,
полномочия пользователей…
• Имеются ее расширенные версии и модификации
• Оценка этих классификаций:
недостаточно строго определены
нет ясности в ее назначении
поэтому эти классификации в малой степени полезны.
17
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
18.
Средства представления метаданных• Естественные языки - наиболее содержательны, но не
обеспечивают строгости, однозначности интерпретации, сложность
компьютерной обработки: аннотации публикаций, сведения об авторах,
об описываемых ресурсах, о содержании ресурсов
• Искусственные языки – большой пласт языков различного рода:
описательные языки с полным набором лингвистических элементов
(алфавит, ситаксис, семантика): дескриптивное подмножество SQL,
ODL, IDL CORBA, OWL, RDF, XML-Schema…
языки разметки: Tex, LaTex, SGML, HTML, XML, микроформаты…
схемы метаданных (наборы элементов метаданных): Dublin Core
визуальные языки: UML, ER-диаграммы, SADT (Structured Analysis
and Design Technique), семейство IDEF
• Средства среды представления описываемых объектов :
аудио, видео, специальные алфавиты…
18
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
19.
Стандартизация метаданных• Стандартизация метаданных – основа интероперабельности и
повторного использования метаданных и описываемых ресурсов
• Деятельность по стандартизации: официальные органы, индустриальные
компании и консорциумы, профессиональные сообщества
• Разработано большое число стандартов метаданных «горизонтальной» и
«вертикальной» сферы
• Примеры стандартов первой группы («горизонтальная» сфера):
дескриптивный подъязык языка SQL
язык описания объектов ODL консорциума ODMG
Open Information Model (OIM) консорциума Metadata Coalition
стандарты OMG: UML, CORBA IDL, MOF, Common Warehouse Model (CMW)
стандарты W3C: XML, XML Schema, RDF, RDFS, OWL, OWL2, WSDL
DCMI, NIST, ISO: Dublin Core (DC)
языки описания бизнес-процессов: BPEL, BPML
стандарты микроформатов
• Во второй группе значительное место принадлежит стандартам научных
метаданных, созданным во многих областях исследований.
19
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
20.
И снова об определении термина• Лаконичное и качественное определение этого термина дать трудно
• Если стремиться к лаконичности, то учитывая разнообразие объектов, для
которых создаются метаданные, возможно такое определение:
Метаданные (метаинформация) объекта ИТ = представленное
с помощью какого-либо выразительного средства описание или
фрагмент этого объекта, характеризующие его свойства.
• Примеры:
Метаданные - описания объектов:
схема базы данных, RDF-спецификация, набор значений элементов DC
Метаданные - фрагменты объектов:
название статьи, фамилия автора, значение ключа строки таблицы БД,
фрагмент мелодии («Угадай мелодию»), цитата из текста (при поиске
содержащего ее текста), фотография фрагмента архитектурного
сооружения (при поиске нужных сооружений), кадр из видео …
• Фрагменты объекта, используемые как его метаданные, выполняют
функции идентификации этого объекта (например, название статьи,
значение первичного ключа) или характеристики его содержания
(например, аннотация).
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
20
21.
Заключение• Мир метаданных очень богат
• К сожалению, его богатство не осознано многими специалистами
• Перспективы: усиливается роль семантических метаданных
• Появление новых технологий и новых сфер применения по
необходимости будет рождать новые системы метаданных
• Рассмотренные в докладе функции и свойства будут присущи
и новым их видам.
XIV Всероссийская научная конференция RCDL-2012.
Переславль-Залесский, 15-18 октября 2012 г.
21
22.
Благодарю за вниманиеXIV Всероссийская научная конференция RCDL-2012. Переславль-Залесский, 15-18 октября 2012 г.
22
23.
Зарождение концепции хранилищаданных
В той или иной степени Системы Поддержки Принятия Решений
(СППР) присутствуют в любой информационной системе (ИС).
Поэтому, осознанно или нет, к задаче создания системы
поддержки принятия решений организации приступают сразу
после приобретения вычислительной техники и установки
программного обеспечения. По мере развития бизнеса,
упорядочения структуры организации и налаживания
межкорпоративных связей, проблема разработки и внедрения
СППР становится особенно актуальной. Одним из подходов к
созданию таких систем стало использование хранилищ
данных.
24.
СППР первого типа получили название Информационных СистемРуководства (Executive Information Systems, ИСР). По сути, они
представляют собой конечные наборы отчетов, построенные
на основании данных из транзакционной информационной
системы предприятия или OLTP-системы, в идеале адекватно
отражающей в режиме реального времени все аспекты
производственного цикла предприятия. Для ИСР характерны
следующие основные черты:
отчеты, как правило, базируются на стандартных для
организации запросах; число последних относительно
невелико;
ИСР представляет отчеты в максимально удобном виде,
включающем, наряду с таблицами, деловую графику,
мультимедийные возможности и т. п.;
как правило, ИСР ориентированы на конкретный вертикальный
рынок, например финансы, маркетинг, управление ресурсами.
25.
СППР второго типа предполагают достаточно глубокую проработкуданных, специально преобразованных так, чтобы их было
удобно использовать в ходе процесса принятия решений.
Неотъемлемым компонентом СППР этого уровня являются
правила принятия решений, которые на основе
агрегированных данных подсказывают менеджерскому составу
выводы и придают системе черты искусственного интеллекта.
Такого рода системы создаются только в том случае, если
структура бизнеса уже достаточно определена и имеются
основания для обобщения и анализа не только данных, но и
процессов их обработки. Если ИСР есть не что иное как
развитие системы оперативного управления
производственными процессами, то СППР в современном
понимании - это механизм развития бизнеса, который
включает в себя некоторую часть управляющей
информационной системы, обширную систему внешних связей
предприятия, а также технологические и маркетинговые
процессы развития производства.
26.
Технология разработки и внедренияХранилища Данных
- этапы проекта;
- выбор модели данных Хранилища;
- выбор структуры Хранилища Данных;
- витрины данных;
- хранилища метаданных (Репозитарий);
- загрузка Хранилища;
- анализ данных: OLAP;
27.
Основное назначение модели предприятия - определение и формализацияданных, действительно необходимых в процессе принятия решения.
Известно два подхода к бизнес - анализу.
В ходе анализа бизнес - событий необходимо также сформировать схему
взаимодействия между транзакционной и аналитической системами на
предприятии. Помимо того, что транзакционная система зачастую
является важнейшим источником данных для хранилища, желательно
задействовать один и тот же пользовательский интерфейс в ИСР
и СППР. Подходы к совместному использованию этих систем
определяются именно на данной фазе выполнения проекта.
Итак, по результатам анализа бизнес-процессов и структур данных
предприятия отбирается действительно значимая для бизнеса
информация с учетом неопределенности будущих запросов. Следующий
шаг связан с пониманием того, в каком виде и на каких аппаратных и
программных платформах размещать структуру данных СППР на основе
ХД.
28.
В самом простом варианте для Хранилищ Данных используется тамодель данных, которая лежит в основе транзакционной системы.
Если, как это часто бывает, транзакционная система функционирует
на реляционной СУБД (Oracle, Informix, Sybase и т. п.), самой сложной
задачей становится выполнение запросов ad-hoc, поскольку
невозможно заранее оптимизировать структуру БД так, чтобы все
запросы работали эффективно.
OLAP-системы построены на двух базовых принципах:
все данные, необходимые для принятия решений, предварительно
агрегированы на всех соответствующих уровнях и организованы так,
чтобы обеспечить максимально быстрый доступ к ним;
язык манипулирования данными основан на использовании бизнес понятий.
При определении программно-технологической архитектуры Хранилища
следует иметь в виду, что система принятия решения, на какие бы
визуальные средства представления она ни опиралась, должна
предоставить пользователю возможность детализации информации.
29.
Несколько лет назад для Хранилищ Данных было предложеноиспользовать схемы данных, получившие названия "звезда" и
"снежинка". Суть технологии проектирования этих схем заключается
в выделении из общего объема информации собственно
анализируемых данных (или фактов) и вспомогательных данных
(называемых измерениями). Необходимо, однако, отдавать себе
отчет в том, что это приводит к дублированию данных в Хранилище,
снижению гибкости структуры и увеличению времени загрузки. Все
это - плата за эффективный и удобный доступ к данным,
необходимый в СППР.
Поскольку в Хранилищах Данных, наряду с детальными, должны
храниться и агрегированные данные, в случае "снежинки" или
"звезды" появляются таблицы агрегированных фактов (агрегатов).
Подобно обычным фактам, агрегаты могут иметь измерения. Кроме
того, они должны быть связаны с детальными фактами для
обеспечения возможной детализации. По некоторым оценкам, при
определении оптимального количества агрегатов следует
придерживаться принципа 80:20 - 80% ускорения достигается за счет
использования 20% кандидатов на агрегаты.
30.
Идея Витрины Данных (Data Mart) возникла несколько лет назад,когда стало очевидно, что разработка корпоративного хранилища
- долгий и дорогостоящий процесс. Это обусловлено как
организационными, так и техническими причинами:
• информационная структура реальной компании, как правило,
очень сложна, и руководство зачастую плохо понимает суть
происходящих в компании бизнес-процессов;
• технология принятия решений ориентирована на существующие
технические возможности и с трудом поддается изменениям;
• может возникнуть необходимость в частичном изменении
организационной структуры компании;
• требуются значительные инвестиции до того, как проект начнет
окупаться;
• как правило, требуется значительная модификация существующей
технической базы;
• освоение новых технологий и программных продуктов
специалистами компании может потребовать много времени;
• на этапе разработки бывает трудно наладить взаимодействие
между разработчиками и будущими пользователями Хранилища.
31.
Принципиальное отличие Системы Поддержки Принятия Решений наоснове Хранилищ Данных от интегрированной системы управления
предприятием состоит в обязательном наличии в СППР метаданных. В
общем случае метаданные помещаются в централизованно
управляемый Репозитарий.
Широко известны Репозитарии, входящие в состав популярных CASEсредств (Power Designer (Sybase), Designer 2000 (Oracle), Silverrun (CSA
Research)), систем разработки приложений (Developer 2000 (Oracle),
Power Builder (Sybase)), администрирования и поддержки
информационных систем (Platinum, MSP). Все они, однако, решают
частные задачи, работая с ограниченным набором метаданных, и
предназначены, в основном, для облегчения труда профессионалов проектировщиков, разработчиков и администраторов
информационных систем. Репозитарий метаданных СППР на основе ХД
предназначен не только для профессионалов, но и для пользователей,
которым он служит в качестве поддержки при формировании бизнес запросов.
32.
Разработка системы управления метаданными сходна с разработкойраспределенной транзакционной системы. При ее создании
необходимо решать следующие задачи:
• анализ процессов возникновения, изменения и использования
метаданных;
• проектирование структуры хранения метаданных (например, в составе
реляционной базы данных);
• организация прав доступа к метаданным;
• блокировка и разрешение конфликтов при совместном использовании
метаданных (что очень часто возникает при изменении общих бизнес понятий в рамках структурного подразделения);
• разделение метаданных между Витринами Данных;
• согласование метаданных ХД с Репозиториями CASE-средств,
применяемых при проектировании и разработке Хранилищ;
• реализации пользовательского интерфейса с Репозитарием.
33.
При описании технологии заполнения Хранилища будем различать тривзаимосвязанные задачи: Сбор Данных (Data Acquisition), Очистка
Данных (Data Cleansing) и Агрегирование Данных (Data Consolidation).
Под Сбором Данных будем понимать процесс, который состоит в
организации передачи данных из внешних источников в Хранилище.
Лишь некоторые аспекты этого процесса полностью или частично
автоматизированы в имеющихся продуктах. Прежде всего, это относится
к интерфейсам с существующими БД. Как правило, здесь имеется
несколько возможностей.
Под очисткой данных обычно понимается процесс модификации данных по
ходу заполнения Хранилища: исключение нежелательных дубликатов,
восстановление пропущенных данных, приведение данных к единому
формату, удаление нежелательных символов (например, управляющих)
и унификация типов данных, проверка на целостность.
При заполнении Хранилища агрегированными данными мы должны
обеспечить выборку данных из транзакционной базы данных и других
источников в соответствии с метаданными, поскольку агрегирование
происходит в терминах бизнес - понятий.
34.
Интеллектуальный анализ данныхИнтеллектуальный анализ данных (ИАД) обычно определяют как метод
поддержки принятия решений, основанный на анализе зависимостей
между данными. В рамках такой общей формулировки обычный анализ
отчетов, построенных по базе данных, также может рассматриваться как
разновидность ИАД. Чтобы перейти к рассмотрению более продвинутых
технологий ИАД, посмотрим, как можно автоматизировать поиск
зависимостей между данными.
Существует два подхода. В первом случае пользователь сам выдвигает
гипотезы относительно зависимостей между данными. Фактически
традиционные технологии анализа развивали именно этот подход.
Действительно, гипотеза приводила к построению отчета, анализ отчета
к выдвижению новой гипотезы и т. д. Это справедливо и в том случае,
когда пользователь применяет такие развитые средства, как OLAP,
поскольку процесс поиска по-прежнему полностью контролируется
человеком. Во многих системах ИАД в этом процессе автоматизирована
проверка достоверности гипотез, что позволяет оценить вероятность тех
или иных зависимостей в базе данных.
35.
Второй подход основывается на том, что зависимости между даннымиищутся автоматически. Количество продуктов, выполняющих
автоматический поиск зависимостей, говорит о растущем интересе
производителей и потребителей к системам именно такого типа.
Сообщается о резком росте прибылей клиентов за счет верно
найденной, заранее неизвестной зависимости. Упоминается пример сети
британских универсамов, где ИАД применялся при анализе убытков от
хищений товаров в торговых залах.
Процессы ИАД подразделяются на три большие группы: поиск зависимостей
(discovery), прогнозирование (predictive modelling) и анализ аномалий
(forensic analysis).
Необходимо также упомянуть об интеграции ИАД в информационные
системы. Многие методы ИАД возникли из задач экспертного анализа,
поэтому входными данными для них традиционно служат "плоские"
файлы данных. При использовании ИАД в СППР часто приходится
сначала извлекать данные из Хранилища, преобразовывать их в файлы
нужных форматов и только потом переходить собственно к
интеллектуальному анализу. Затем результаты анализа требуется
сформулировать в терминах бизнес - понятий.
36.
Создание СППР на основе хранилищ данных - сложный, нообозримый процесс, требующий знания бизнеса, программнотехнического инструментария и опыта выполнения крупных
проектов. Вместе с тем внедрение подобных систем может дать
преимущества в бизнесе, которые будут тем ощутимее, чем раньше
организация начнет создание СППР. По прогнозам консалтинговой
фирмы Gartner Group, к 2010 году примерно 90-95% компаний будут
использовать хранилища данных.
Значимость информационных систем подобного уровня признается и
представителями большинства российских компаний. Однако в силу
ряда причин, инициативные или заказные работы ведутся зачастую
достаточно бессистемно, в основном в двух направлениях:
закупка и тестирование разнообразных продуктов, применяемых при
создании СППР и ХД (к сожалению, большинство из них плохо
сопрягаются друг с другом, из-за чего создается ложное впечатление
"неподъемности" проблемы);
решение частного вопроса о повышении производительности
отчетных систем путем локального перепроектирования структуры
хранения или перехода на более современные и сложные
программные средства.