Similar presentations:
ИАС тема 1.3 ред.09.11.25
1.
ИНФОРМАЦИОННО- АНАЛИТИЧЕСКИЕ СИСТЕМЫРаздел 1. Информационно-аналитические системы
- средство решения управленческих задач
Тема 1.3. Хранилище данных – основа
информационно-аналитических систем
2.
План1. Формирование единого информационного
пространства – важнейшее условие создания
информационно-аналитической системы
2. Хранилище данных: определение понятия
3. Базы данных – источник построения хранилищ
данных
4. Структура хранилищ данных
5. Представление данных в хранилище данных
6. Репозиторий данных: назначение, состав
метаданных
3.
Список литературыОсновная литература
1.
2.
3.
4.
5.
Алдохина, О.И. Информационно-аналитические системы и сети. Часть 1. Информационноаналитические системы : учебное пособие / Алдохина О. И.; Басалаева О. Г.; КемГУКИ. –
Кемерово: КемГУКИ, 2010. – 148 с. – Текст : непосредственный.
Белов, В.С. Информационно-аналитические системы: основы проектирования и
применения: учебно-практическое пособие / В.С. Белов. – 2-е изд., перераб. и доп. –
Москва: Евразийский открытый институт, 2010. – 111 с. – Университетская библиотека
online. – URL: http://biblioclub.ru/index.php?page=book&id=90540/. – Загл. с экрана – Текст :
электронный.
Килин, А.П. Информационно-аналитическая деятельность в органах государственного
управления субъектов Российской Федерации/ А.П. Килин, Д.В. Колобова, О.В. Чистякова ;
Министерство образования и науки Российской Федерации, Уральский федеральный
университет имени первого Президента России Б. Н. Ельцина. – Екатеринбург :
Издательство Уральского университета, 2014. – 155 с. – Университетская библиотека
online. – URL:http://biblioclub.ru/index.php?page=book&id=275733 . – Текст : электронный.
Туманов, В.Е. Проектирование хранилищ данных для систем бизнес-аналитики : учебное
пособие / В.Е. Туманов. – Москва: Интернет-Университет Информационных Технологий,
2010. - 616 с. – Университетская библиотека online. –
URL:http://biblioclub.ru/index.php?page=book&id=233492 – Текст : электронный.
Чубукова, И.А. Data Mining / И.А. Чубукова. – 2-е изд., испр. – Москва: Интернет-Университет
Информационных Технологий, 2008. – 383 с. – Университетская библиотека online. –
URL:http://biblioclub.ru/index.php?page=book&id=233055 . – Текст : электронный.
4.
Дополнительная литература1.
2.
3.
4.
5.
6.
Бычков, И. В. Инфраструктура информационных ресурсов и технологии создания
информационно-аналитических систем территориального управления / И. В. Бычков. –
Новосибирск : Издательство Сибирского отделения Российской Академии Наук, 2016. – 240 с. –
URL: https://biblioclub.ru/index.php?page=book&id=467655 .– Текст : электронный.
Говорова, Е. И. Разработка информационно-аналитической системы управленческого учета
малого предприятия / Е. И. Говорова ; Санкт-Петербургский государственный экономический
университет. – Санкт-Петербург :б.и., 2020. – 74 с.. – URL:
https://biblioclub.ru/index.php?page=book&id=596453 (дата обращения: 13.09.2023). – Текст :
электронный..
Информационно-аналитическое обеспечение бизнес-процессов в условиях инновационных
ориентиров : коллективная монография / С. В. Земляк, Е. В. Ганичева, О. М. Гусарова [и др.] ;
под ред. С. В. Земляк ; Финансовый университет при Правительстве Российской Федерации,
Смоленский филиал. – 2-е изд. – Москва : Дашков и К°, 2022. – 152 с. URL:
https://biblioclub.ru/index.php?page=book&id=698269 . –Текст : электронный.
Сергеев, Н. Е. Системы искусственного интеллекта : учебное пособие : [16+] / Н. Е. Сергеев. –
Таганрог : Южный федеральный университет, 2016. – Часть 1. – 123 с. : схем., ил., табл. – Режим
доступа: по подписке. – URL: https://biblioclub.ru/index.php?page=book&id=493307 (дата
обращения: 13.09.2023). – Библиогр. в кн. – ISBN 978-5-9275-2113-5. – Текст : электронный.
Учетно-аналитическая система : теория и практика / Л. В. Андреева, Т. В. Бодрова,
Е. В. Зубарева [и др.]. – 4-е изд., перераб. и доп. – Москва : Дашков и К°, 2022. – 312 с.– URL:
https://biblioclub.ru/index.php?page=book&id=698569 . – Текст : электронный.
Шкапова, Ю. С. Совершенствование информационно-аналитического обеспечения
государственной поддержки малого и среднего предпринимательства за счет внедрения
инновационных информационных технологий : [16+] / Ю. С. Шкапова ; Российский
технологический университет, Институт инновационных технологий и государственного
управления, Кафедра информационных технологий в государственном управлении. – Москва
:б.и., 2020. – 70 с.– URL: https://biblioclub.ru/index.php?page=book&id=595247. – Текст :
электронный.
5.
1. Формирование единогоинформационного пространства –
важнейшее условие создания
информационно-аналитической
системы
6. Уровни развития идеи формирования единого информационного пространства
–мировой (единое мировое информационное пространство),континента (единое европейское информационное пространство),
коалиции государств (единое информационное пространство
Евросоюза, единое информационное пространство СНГ),
отдельного государства (единое информационное пространство
России);
– субъекта или отдельного региона РФ (единое информационное
пространство республики, края, области, автономной области и
др.).
– отрасли (единое информационное пространство вооруженных
сил, судебной системы, здравоохранения, культуры, образования,
воздушного транспорта т.д.)
– предприятия, организации (единое информационное
пространство вуза, акционерного общества, кредитной
организации и т.д.) или отдельного человека (школьника, студента,
специалиста и т.п.).
7. Единое информационное пространство и родственные понятия: появление и отражение в нормативно-правовых документах
ГодДокумент
1993 Концепция
Понятие и его определение
Используется понятие «единое информационноправовое пространство», его определение не
правовой информатизации
дается.
России
1995 Концепция формирования Единое
информационное
пространство
и
развития
единого представляет собой совокупность баз и банков
информационного
данных, технологий их ведения и использования,
пространства России и информационно-телекоммуникационных систем и
соответствующих
сетей, функционирующих на основе единых
государственных
принципов и по общим правилам, обеспечивающим
информационных
информационное взаимодействие организаций и
ресурсов
граждан,
а
также
удовлетворение
их
информационных потребностей.
1996 Концепция формирования Информационное
пространство
СНГ
–
информационного
совокупность национальных информационных
пространства Содружества пространств
государств
–
участников
СНГ,
Независимых Государств
взаимодействующих на основе соответствующих
межгосударственных договоров по согласованным
8. Единое информационное пространство и родственные понятия: появление и отражение в нормативно-правовых документах
Год2009
2014
2016
2016
2016
Документ
Концепция
формирования
информационно-библиотечного
пространства
на
базе
приграничных
библиотек
государств-участников СНГ
Понятие и его определение
Информационно-библиотечное
пространство
–
совокупность
национальных
информационных
пространств
государств-участников
СНГ,
взаимодействующих на основе соответствующих
межгосударственных договоров, в формировании
которого
принимают
участие
приграничные
библиотеки.
Основы
государственной Появляется понятие «единое общее национальное
культурной политики
электронное пространство знаний», его определение
не дается.
Стратегия
государственной Используются
понятия
«единое
культурное
культурной политики на период пространство (включая языковое, образовательное
до 2030 года
и
информационное)»;
«единое
российское
информационное
пространство
знаний»,
их
определения не приводятся.
ФЗ «О библиотечном деле»
Используется
понятие
«единое
российское
электронное пространство знаний», его определение
Статья 18.1. Национальная
не дается.
электронная библиотека
Доктрина
Используется
понятие
«информационное
9. Единое информационное пространство и родственные понятия: появление и отражение в нормативно-правовых документах
ГодДокумент
Понятие и его определение
2017
Стратегия
развития
информационного
общества в Российской
Федерации на 2017–2030
годы
Информационное
пространство
–
совокупность
информационных
ресурсов,
созданных
субъектами
информационной сферы, средств взаимодействия таких
субъектов, их информационных систем и необходимой
информационной инфраструктуры;
2017
2019
Программа
«Цифровая
экономика
Российской Федерации»
Положение о
федеральной
государственной
информационной
системе «Национальная
электронная
библиотека»
Используются также понятия «информационное пространство,
основанное на знаниях» (информационное пространство
знаний), «культурное пространство», «пространство знаний», их
определения не приводятся.
Используется понятие «информационное пространство», его
определение не дается.
Пространство знаний – единое российское электронное
пространство знаний, представляющее собой совокупность
взаимно интегрированных на основе Национальной электронной
библиотеки информационных систем и иных информационных
ресурсов, сформированных на базе научного, исторического и
культурного достояния народов РФ, образцов зарубежных
научных,
культурных
и
исторических
ценностей
и
10. Единое информационное пространство: определение понятия
Единое информационное пространство; ЕИП (в системеэксплуатации авиационной техники) - совокупность
взаимоувязанных интегрированных информационных систем,
основанная на информационных ресурсах всех участников
процессов сопровождения жизненного цикла авиационной
техники.
Примечание: Интеграция информационных систем субъектов
информационно-аналитических систем мониторинга летной годности
воздушных судов в едином информационном пространство
осуществляется на основе единой нормативной базы, форматов и
алгоритмов обработки информационных потоков, единых принципов,
обеспечивающих информационное взаимодействие по сопровождению
эксплуатации авиационной техники.
ГОСТ Р 54080-2010 Воздушный транспорт. Система технического
обслуживания и ремонта авиационной техники. Информационноаналитическая система мониторинга летной годности воздушных судов.
Общие требования.- Москва: Стандартинформ, 2012.
11. Единое информационное пространство: рабочее определение понятия
Единое информационное пространство системы –совокупность информационных объектов, информационно
отображающих свойства системы и протекающие в ней
процессы
Информационный объект - информационное отображение
физических объектов или процессов
Основными компонентами информационного пространства
предприятия, учреждения являются:
• информационные ресурсы (внешние и внутренние);
• средства и методы технологии информационного
взаимодействия;
• информационная инфраструктура.
12. Компоненты единого информационного пространства информационно-аналитической системы
Единое информационное пространство должно включать в себя:
интегрированное хранилище согласованной и очищенной пространственной,
атрибутивной и документальной (фактографической) информации (хранилище
данных) — основу информационно-аналитической системы;
средства сбора, согласования и доступа к данным, позволяющие производить
очистку, согласование и представление данных, поступающих из различных
информационных систем и ресурсов;
интеграционные механизмы, позволяющие получать данные из различных
информационных систем и ресурсов, в том числе в режиме онлайн, посредством вебсервисов;
средства многомерного анализа данных и составления произвольных отчетов,
полностью основанные на первичных данных из информационных систем и ресурсов
— первоисточников и интегрированные с табличной, документальной и
пространственной информацией;
средства пространственной визуализации данных (геопортал), интегрированные
с табличными и документальными данными и средствами многомерного анализа
данных;
мобильные решения по работе со всеми средствами ИАС, необходимыми для
проведения оперативного анализа и принятия управленческих решений вне
ситуационного центра.
13.
2. Хранилище данных: определениепонятия
14. Хранилище данных (Data warehouse): определение понятия
Хранилище данных (ХД) - предметно-ориентированные,интегрированные, стабильные, поддерживающие хронологию
наборы данных, организованные для целей поддержки
управления.
Уильям Х. Инмон (Bill Inmon)
Хранилище данных (ХД) - предметно-ориентированная,
интегрированная, неизменяемая и поддерживающая
хронологию электронная коллекция данных для обеспечения
процесса принятия решений.
Уильям Х. Инмон (Bill Inmon)
Уильям Х. Инмон (1945 г.р.) — американский учёный в области информатики,
которого считают «отцом хранилищ данных»; является автором первой книги и
первой конференции по этой теме, а также
концепции «Корпоративной
Информационной Фабрики». Его подход часто характеризуют как «сверху вниз».
15. Публикации William H. (Bill) Inmon а
Уильям Х. Инмон (родился в 1945 г.) американский ученый, которогомногие считают отцом хранилищ
данных
16. Хранилище данных (Data warehouse): рабочее определение понятия
Хранилище данных (ХД, информационное хранилище, складданных, Data warehouse) – включающая данные из различных
внешних и внутренних источников, предметноориентированная, интегрированная совокупность данных,
накопленных за большой интервал времени и обеспечивающих
оперативное представление аналитической информации в
удобном для пользователя виде при принятии оперативных
управленческих решений; а также при информационной
поддержке принятия стратегических решений в технологиях
интеллектуального или углубленного анализа данных
17. Признаки хранилищ данных
• предметная ориентация данных (информация в ХД организована всоответствии с основными аспектами деятельности предприятия
(заказчики, продажи, склад и т.п.), т.е. бизнес-процессами);
• интегрированность хранимых данных, собираемых из
различных источников (исходные данные извлекаются из
операционных БД, проверяются, очищаются, приводятся к единому
виду, в нужной степени агрегируются, т.е. вычисляются суммарные
показатели и загружаются в ХД);
• инвариантность данных во времени (попав в определенный
исторический слой ХД, данные уже никогда не будут изменены);
• возможность анализировать информацию во временном
аспекте (данные в хранилище всегда напрямую связаны с
определенным периодом времени);
• возможность формировать произвольные запросы к системе;
• возможность обрабатывать большие объемы данных;
• относительно высокая стабильность данных.
18. Объективные предпосылки возникновения и развития систем хранилищ данных
Глобализация экономики, фундаментальные изменения в организации бизнеса
и изменения в его структуре в конце ХХ века ( реинжениринг бизнеспроцессов (business process reengineering) и перестраиваемость
бизнеса (downsizing), вынудившие руководителей переоценить практику ведения
бизнеса, изменившие требования к информации и спрос на нее.
Изменения требований к информации, предъявляемые средним и высшим звеном
управленческого персонала.
Недостаточность возможностей автоматизированных информационных систем
для удовлетворения потребностей пользователей в информации, необходимой для
принятия решений.
Развитие средств вычислительной техники: массовое распространение
персональных компьютеров, которые позволили перенести данные из
централизованного вычислительного центра на рабочий стол пользователя (в
частности бизнес-аналитика).
Развитие средств программного обеспечения в направлении анализа данных:
интенсивное использование систем поддержки и принятия решений (СППР —
DSS), ориентированных больше на менеджеров среднего уровня и
руководителей (ИСР — EIS, информационная система руководителя).
Появление специализированных поставщиков решений в автоматизации
бизнеса: фирмы-разработчики программного обеспечения - SAP AG, Baan, Oracle,
Microsoft, IBM и др. предлагают быстро адаптируемые к бизнес-процессам
программные продукты для управления бизнесом.
19.
3. Базы данных – источник построенияхранилищ данных
20. Способы организации данных в составе машинной информационной базы автоматизированной информационной системы
Способыорганизации
Основные признаки организации
Локальные файлы
Независимость данных; избыточность данных из-за повторения
одних и тех же элементов данных в разных файлах,
ориентированных на решение различных локальных задач;
большое дублирование данных в информационной системе,
несогласованность данных в разных приложениях, негибкость
доступа к информации
Базы данных
Интеграция и централизация управления данными, устранение
излишней избыточности данных, многоаспектный доступ к
совокупности взаимосвязанных данных
Банки данных
Интегрированность баз данных и целостность каждой из них;
независимость и минимальная избыточность хранимых данных,
которая допускает их использование оптимальным образом для
множества приложений
Хранилища данных
адекватное отображение предметной области за счет
интегрированности данных, собираемых из различных источников
и, хранимых как единое целое и используемых при принятии
управленческих решений
Базы знаний
Возможность нахождения решений сложных задач в некоторой
21. «База данных»: рождение понятия
Понятие «база данных» («data base») появилось вначале 1960-х годов и было введено в употребление
на симпозиуме, посвященном проблематике баз
данных (организован в
г. Санта-Моника (штат Калифорния) фирмой SDC
(System Development Corporation) в 1963 году).
Когаловский, М.Р. Энциклопедия технологий баз
данных / М.Р. Когаловский.- М.: Финансы и статистика, 2002.С.12.
22. База данных: рабочее определение понятия
База данных – совокупность относящихся копределенной
области
знания
(теме,
проблеме)
взаимосвязанных
данных,
представленных в определенном формате на
машинном носителе
23. Основные типы логических моделей баз данных: определение понятия
Наименованиелогической модели
Определение понятия
Иерархическая модель данных
Логическая модель БД, в которой каждая
подчиненная запись связана только с одной
записью старшего уровня; между записями
реализуется связь 1:m или 1:1
Сетевая модель данных
Логическая модель БД, в которой одна и та же
запись может участвовать в произвольном числе
связей; между записями реализуется связь 1:m
или m:m
Реляционная модель данных
Логическая модель БД, в которой записи
представлены строками двумерных таблиц отношений (англ. relation).) при этом отсутствуют
явные указания связей между записями
Объектно-ориентированная
(постреляционная,объектная)
модель данных
Логическая модель БД, в которой записи
представлены многомерной табличной формой
24. «База данных»: развитие понятия
В лексикон специалистов в области баз данных широкоеупотребление понятие «база данных» вошло в 70-е годы ХХ
века, после публикации фундаментальной работы Э. Кодда,
посвященной реляционным моделям данных.
В рамках реляционной модели с единых позиций
были решены многие проблемы операционной
(транзакционной) обработки данных –
OLTP (On-Line Trasactions Proccessing).
Когаловский, М.Р. Энциклопедия технологий баз данных
/ М.Р. Когаловский.- М.: Финансы и статистика, 2002.- С.12.
25.
Британский учёный, работы которого заложилиосновы теории реляционных баз данных.
Работая в компании IBM, изобрел реляционную
модель для управления базами данных, теоретическую
основу для реляционных баз данных и систем
управления реляционными базами данных. В 60-х — 70-х
годах он работал над своими теориями хранения данных
и явился автором полной теории хранения и управления
большими объемами бизнес-данных. Эдгар
Франк Кодд – человек, поставивший управление базами
данных на научную основу. Реляционная модель, общая
теория управления данными, остаются его самым
упоминаемым, проанализированным и прославляемым
достижением. Э.Ф. Кодд в 1981 году. получил премию
Тьюринга.
В 1993 г. Он рассмотрел недостатки реляционной
модели, в первую очередь указав на невозможность
Эдгар Франк Кодд
«объединять, просматривать и анализировать данные с
точки зрения множественности измерений, то есть самым (19 августа 1923 —
18 апреля 2003гг.)
понятным для корпоративных аналитиков способом, и и
определил 12 общих требований к системам OLAP,
расширяющим функциональность реляционных СУБД и
включающим многомерный анализ как одну из своих
характеристик. .
26. Отличительные черты баз данных как особой разновидности цифровых информационных ресурсов
• компактное хранение больших объемов информации;• возможность доступа к данным на расстоянии;
• выполнение различных преобразований данных (сортировка,
выборка, дополнение, изменение, расширение, реорганизация,
корректировка, вычисления и др.);
• оперативный многоаспектный поиск информации;
• возможность получения информации в текстовой, табличной
или графической формах;
• комфортность работы с данными;
• лёгкость копирования
27.
Базы данных: сущность функционированияВвод данных
Контроль
данных
Обновление
данных
БАЗА ДАННЫХ
Хранение и
преобразование
данных
СУБД
Табличные
документы
Текстовые
документы
Графические
документы
28. Характеристика задач, решаемых базой данных «Персонал учреждения»
Наименование задачиФормирование
списка
сотрудников учреждения
Формирование
списка
сотрудников,
работающих
в
конкретном
подразделении
учреждения
Формирование
справки
о
конкретном
сотруднике
учреждения
Формирование
списка
сотрудников
учреждения,
имеющих награды
Формирование
списка
сотрудников
учреждения,
имеющих конкретную награду
Формирование
списка
сотрудников
учреждения,
имеющих почетное звание
Формирование
списка
военнообязанных
сотрудников
учреждения
Формируемый документ
Пользователи
Регламентные задачи
Список сотрудников
учреждения
Список сотрудников,
работающих в конкретном
подразделении
Руководитель учреждения,
работники отдела кадров
Руководитель учреждения,
работники отдела кадров
Справка
о
конкретном
сотруднике учреждения
Руководитель учреждения,
работники отдела кадров
Список
сотрудников
учреждения, имеющих награды
Руководитель учреждения,
работники отдела кадров
Список
сотрудников
учреждения,
имеющих
конкретную награду
Список
сотрудников
учреждения, имеющих почетное
звание
Список
военнообязанных
сотрудников учреждения
Руководитель учреждения,
работники отдела кадров
Руководитель учреждения,
работники отдела кадров
Руководитель учреждения,
работники отдела кадров
29. Характеристика задач, решаемых базой данных «Персонал учреждения»
Наименование задачиФормируемый документ
Пользователи
Формирование
списка
сотрудников
учреждения,
окончивших
высшие
учебные
заведения в течение заданного
периода времени
Формирование
списка
сотрудников
учреждения
пенсионного возраста
Список
сотрудников
учреждения,
окончивших
высшие учебные заведения в
течение заданного периода
времени
Список
сотрудников
учреждения
пенсионного
возраста
Инновационные задачи
Руководитель учреждения, работники
отдела кадров
Формирование
диаграммы
«Публикационная
активность
сотрудников учреждения»
Формирование
диаграммы
«Возрастные
категории
сотрудников учреждения»
Формирование
списка
сотрудников
учреждения,
информация о которых отражена
в справочных изданиях
Формирование
списка
сотрудников
учреждения,
являющихся
членами
Диаграмма «Публикационная
активность
сотрудников
учреждения»
Диаграмма
«Возрастные
категории
сотрудников
учреждения»
Список
сотрудников
учреждения, информация о
которых
отражена
в
справочных издания
Список
сотрудников
учреждения,
являющихся
членами
международных,
Руководитель учреждения, работники
отдела кадров
Руководитель учреждения, работники
отдела кадров
Руководитель учреждения, работники
отдела кадров
Руководитель учреждения, работники
отдела кадров, руководители
структурных подразделений
учреждения
Руководитель учреждения, работники
отдела кадров, руководители
структурных подразделений
учреждения
30. Структура логических записей реляционной базы данных
Имя поляПризнак
Условно Полное
ключа
е
наимено
обознач вание
ение
Формат поля
Тип
Длина Область
поля
поля/Фо допусти
рмат
мых
значени
й
31. Структура логических записей базы данных «Персонал учреждения»
Имя поляКод сотрудника
Признак ключа
Размер поля
Счетчик
4
Фамилия, имя, отчество
Короткий текст
100
Пол
Короткий текст
7
Дата рождения
10
Место рождения
Дата/Время / Краткий
формат даты
Длинный текст
Фотография
Поле объекта OLE
Гражданство
Короткий текст
20
Числовой / Длинное целое
4
Короткий текст
50
Образование
Первичный ключ
Тип данных/ Формат поля
Внешний ключ
Почетное звание
Отражение профессиональной
деятельности в справочных
изданиях
Научные публикации
Внешний ключ
Числовой / Длинное целое
4
Внешний ключ
Числовой / Длинное целое
4
Членство в организациях
Внешний ключ
Числовой / Длинное целое
4
Выполняемая работа
Внешний ключ
Числовой / Длинное целое
4
Награды
Внешний ключ
Числовой / Длинное целое
4
32. Сущность технологии OLTP (Online Transaction Processing)
OLTP (Online Transaction Processing) — обработка транзакций* в реальномвремени. Способ организации БД, при котором система работает с
небольшими по размерам транзакциями, но идущими большим потоком, и
при этом клиенту требуется от системы максимально быстрое время
ответа.
* Транзакция (от английского transaction — сделка) — это серия операций по
обмену информацией, в результате которой в систему вносятся изменения.
В современных СУБД сериализация транзакций организуется через
механизм блокировки, т.е. на время выполнения транзакции СУБД блокирует
БД или ее часть, к которым обращается транзакция, блокировка сохраняется до
момента фиксации транзакции. Если в процессе параллельной обработки
другой транзакцией делается попытка обратиться к блокированным данным, то
обработка транзакции приостанавливается и возобновляется только после
завершения транзакции, заблокировавшей данные, и снятия блокировки. Чем
меньше блокируемый объект, тем больше оперативность БД.
Запросы на некую комплексную информацию (на пример, запрос на
поквартальную динамику объёмов продаж по определённой модели товара в
определённом филиале, характерный для аналитических приложений),
порождают сложные соединения таблиц и просмотр таблиц целиком, что
приводит к значительному увеличению времени и компьютерных ресурсов на
реализацию запроса и соответственно тормозит обработку текущих транзакций.
33. База данных и хранилище данных: отличительные признаки
Элемент отличияБаза данных
Хранилище данных
Тип данных
Оперативные данные
предприятия (организации)
Внутренние данные
предприятия
(организации), внешние
данные
Модели данных
Поддерживается одна
модель данных
Поддерживается
большое количество
моделей данных
Выполняемые
запросы
Запросы по оперативным
данным предприятия
(организации), отражающим
ситуацию на настоящий
момент времени
Оперативные и
ретроспективные
запросы, содержащие
данные предприятия и
внешних источников как
на настоящий момент
времени, так и за
предыдущие периоды
34.
4. Структура хранилищ данных35. Обобщенная структура информационно-аналитической системы
Внешние и внутренние источники данных(уровень транзакционных систем)
База данных 1
База данных 2
База данных N
Подсистема сбора, преобразования и складирования данных
Оперативный склад данных
Хранилище данных
Подсистема
хранения
данных
Подсистема
метаданных
(репозиторий)
Подсистема представления данных (витрины, киоски данных)
Оперативный
анализ данных
Интеллектуальны
й анализ данных
OLAP
Data mining
Информационная
система
руководителя
Создание плановых
отчетных и других
документов
EIS
Reporting
36. Принципы организации хранилища данных
• Проблемно-предметная ориентация. Данные объединяютсяв категории и хранятся в соответствии с областями,
которые они описывают, а не с приложениями, которые
они используют.
• Интегрированность. Данные объединены так, чтобы они
удовлетворяли всем требованиям предприятия в целом, а
не единственной функции бизнеса.
• Некорректируемость. Данные в хранилище данных не
создаются: т.е. поступают из внешних источников, не
корректируются и не удаляются.
• Зависимость от времени. Данные в хранилище точны и
корректны только в том случае, когда они привязаны к
некоторому промежутку или моменту времени.
37. Архитектура хранилищ данных
Особенности архитектурыхранилищ данных
Состав элементов
Хранилище данных
трехуровневой архитектуры
Первый уровень – разнообразные
источники данных;
Второй уровень – центральное
хранилище данных
Третий уровень – набор предметноориентированных витрин данных
Хранилище данных
двухуровневой архитектуры
Первый уровень – разнообразные
источники данных;
Второй уровень – центральное
хранилище данных (все данные
концентрируются в одном ресурсе, к
которому имеют доступ все
пользователи)
38. Центральное (глобальное) хранилище данных: определение понятия и признаки
Центральное (глобальное) хранилище данных* (Global data warehouse) – этоинформационный ресурс информационно-аналитической системы, в котором,
концентрируются все данные из всех источников первого уровня предприятия
(организации и т.д.) и к которому имеют доступ все пользователи
Глобальные хранилища данных предназначены для представления
деятельности организации, связанной с:
превалированием обработки данных в географическом аспекте. (Например,
необходимо интегрировать бизнес в Гонконге с бизнесом в Париже, который, в
свою очередь, следует интегрировать с Москвой, а тот — с Владивостоком.)
превалированием функциональных взаимосвязей в обработке данных.
(Производственная деятельность должна быть интегрирована с поставками,
которые необходимо интегрировать с продажами, а те — с исследованиями и
так далее.)
превалированием отраслевой интеграции в обработка данных. (Например,
требуется интегрировать печатное дело с консалтингом, который подлежит
интеграции с бизнесом в сфере медицинского оборудования, а тот — со
специализацией в области программного обеспечения).
* Преимуществом глобального хранилища данных является предоставление
конечным пользователям доступа к информации в масштабах предприятия
(организации и т.д.); недостатком — высокие затраты на реализацию, в том
числе затраты времени на создание хранилища данных.
39. Способы организации данных в хранилищах данных
В рамках ИАС многомерное представление данных может быть организовано каксредствами реляционных СУБД, так и многомерных специализированных средств.
Тип структуры хранилища
данных
Подходы к организации данных
Реляционные (Relation) OLAP - ROLAP
Данные организованы средствами реляционных СУБД,
как надстройка над реляционными базами данных,
обеспечивающая удобный интерфейс пользователя.
Многомерные (Multidimensional) OLAPMOLAP
Данные организованы не в виде реляционных таблиц, а
упорядоченных многомерных массивов или гиперкубов в
многомерной базе данных, что обеспечивает более
быстрое (на один-два порядка меньше), чем при ROLAP
получение ответов на запросы. Осями многомерной
системы координат служат основные атрибуты
анализируемого бизнес-процесса. Пользователь,
анализирующий информацию, может «разрезать» куб по
разным направлениям, получать сводные (например, по
годам) или, наоборот, детальные (по неделям) сведения
и осуществлять прочие манипуляции, которые ему
придут в голову в процессе анализа.
Смешанные или гибридные
( Hibrid ) OLAP - HOLAP
Данные организованы с использованием многомерного
и реляционного подхода в зависимости от размерности
информационных массивов, их структуры, частности
обращений к тем или иным записям, вида запросов и т.д.
40. Оперативный склад данных: состав и назначение
Оперативный склад данных – компонентцентрального хранилища данных, который не
содержит ретроспективных (исторических) данных и
выполняет две основные функции:
• служит источником аналитической информации для
оперативного управления;
• используется с целью подготовки (преобразования и
контроля) данных для их последующей загрузки в
центральное хранилище данных
41. Централизованное хранилище и витрины данных
Данные из оперативных систем и внешних источниковподвергаются различным преобразованиям, согласованию и
загружаются в централизованное хранилище, которое содержит
всю информацию, необходимую для всевозможных процессов
принятия решений, но оно не ориентировано на выполнение тех
или иных прикладных функций и с этой точки зрения является
нейтральным по отношению к приложениям.
Для того чтобы существующие хранилища данных
способствовали принятию управленческих решений, информация
должна быть представлена аналитику в нужной форме
Для информационного обеспечения отдельных функционально
замкнутых задач используются так называемые витрины данных,
в которые информация попадает либо из хранилища (зависимые
витрины) либо непосредственно из источников данных, проходя
предварительные согласования и преобразования (независимые
витрины). Витрины данных строятся на основе реляционных или,
что более популярно, многомерных СУБД, так как для решения
большинства задач анализа оказываются полезными принципы
многомерной модели данных и соответствующие им многомерные
базы данных.
42. Витрина данных: рабочее определение понятия
Витрина данных (киоск данных, подмножество общегохранилища данных, подсистема представления данных,
Data marts) - предметно-ориентированное хранилище данных
(как правило, агрегированной информации), предназначенное
для использования группой пользователей в рамках
конкретного вида деятельности предприятия (организации) для
проведения целевого делового анализа, например,
маркетингового, финансово-экономического и т.д.
Витрины данных строятся, как правило, на основе информации из
хранилища данных, но могут также формироваться из данных, взятых
непосредственно из транзакционных систем, когда хранилище данных на
предприятии (в организации) по каким-либо причинам не реализовано.
С точки зрения пользователя, отличие витрин данных от хранилища данных
заключается в том, что хранилище данных соответствует уровню всей
организации, а каждая витрина обычно обслуживает уровень не выше
отдельного подразделения и иногда может создаваться для индивидуального
использования, отличаясь достаточно узкой целевой специализацией.
43. Система складирования данных как основа формирования хранилищ данных
Системы операционной илитранзакционной обработки
данных,
(OLTP-системы, On-Line
Trasactions Processing)
Система
складирования
данных
Внешние источники данных
Хранилище
данных
(Data
warehouse)
44. Противоречие в целевой направленности обработки данных в операционных системах как одна из основных предпосылок разработки
концепциискладирования данных
Высокая
производитель
ность
обработки
запросов в
операционных
системах
Обоснование
разработки
Падение
производительн
ости обработки
запросов на
больших
объемах
данных в
операционных
системах
Концепция
складирования
данных для их
обработки
в
информационноаналитических
системах
.
45. Истоки формирования теории и технологии складирования данных
Технологии базданных (БД)
Технологии
систем
поддержки
принятия
решений
(СППР — DSS)
Технологии
компьютерного
анализа данных
Технологии складирования
данных
(Data warehousing)
Информационная технология складирования данных (Data warehousing) родилась в
недрах компании IBM и была окончательно сформулирована Б. Инмоном и
Р. Кимбаллом в 90-х годах прошлого столетия как средство решения
информационно-аналитических задач в области принятия и поддержки решений.
46. Особенности систем, построенных на основе информационной технологии складирования данных
Системы, построенные на основе информационной технологиискладирования данных, обладают рядом характерных особенностей.
К ним относятся:
• предметная ориентация системы,
• интегрированность хранимых в ней данных, собираемых из
различных источников,
• инвариантность данных во времени,
• относительно высокая стабильность данных,
• необходимость поиска компромисса в избыточности данных.
Главная цель создания систем складирования данных ориентация на анализ накопленных данных, т.е. на то, чтобы
данные эффективно использовались в аналитических
приложениях (analytical applications).
47.
5. Представление данных в хранилищеданных
48. Свойства данных, содержащихся в хранилищах данных
Наименование свойстваХарактеристика свойства
Предметная ориентация
Данные организованы в соответствии со
способом их представления в предметных
приложений
Целостность
Данные объединены едиными
наименованиями, единицами измерения и
т.д.
Отсутствие временной
привязки
В отличие от локальных баз данных в
информационном хранилище содержатся
данные, накопленные за большой интервал
времени (года, десятилетия)
Согласованность во
времени
Данные приведены к единому моменту
времени
Неизменяемость
Данные не обновляются и не изменяются,
они считываются из различных источников
и доступны только для чтения
49. Основные отличия использования данных в системах операционной обработки данных и системах анализа данных
Основные отличия использования данныхв системах операционной обработки
данных и системах анализа данных
Наименование
сопоставительного
признака
Операционные системы
обработки данных
Частота обновления режим реального
времени
данных
Системы
складирования данных
периодически
Цель
структурирования
данных
обеспечение
целостности данных
обеспечение
простоты
выполнения запросов
Назначение
оптимизации
данных
выполнение транзакций выполнение выборки
данных
50. Куб данных: основные характеристики
Куб данных создаётся из соединения таблиц с применениемсхемы звезды или схемы снежинки. В центре схемы звезды находится
таблица фактов, которая содержит ключевые факты, по которым делаются
запросы. Множественные таблицы с измерениями присоединены к таблице
фактов. Эти таблицы показывают, как могут анализироваться агрегированные
реляционные данные. Количество возможных агрегирований определяется
количеством способов, которыми первоначальные данные могут быть
иерархически отображены.
Например, все клиенты могут быть сгруппированы по городам или по регионам
страны (Запад, Восток, Север и т. д.), таким образом, 50 городов, 8 регионов и 2
страны составят 3 уровня иерархии с 60 членами. Также клиенты могут быть
объединены по отношению к продукции; если существуют 250 продуктов по 2
категориям, 3 группы продукции и 3 производственных подразделения, то
количество агрегатов составит 16560. При добавлении измерений в схему,
количество возможных вариантов быстро достигает десятков миллионов и
более.
Куб данных содержит в себе базовые данные и информацию об измерениях
(агрегатах). Куб потенциально содержит всю информацию, которая может
потребоваться для ответов на любые запросы. Из-за громадного количества
агрегатов, зачастую полный расчёт происходит только для некоторых
измерений, для остальных же производится «по требованию».
Куб OLAP предоставляет многомерное представление данных. Куб
сопоставляется с таблицей в реляционной базе данных.
51. Структура куба данных
В основе информационно-аналитических систем лежит обработка многомерныхмассивов данных. В отличие от обычных данных, многомерные содержат от трех
и более параметров, позволяют оценить, как эти параметры влияют друг на
друга и предсказать значение одной из переменных по значениям остальных.
В основе информационно-аналитических систем лежит обработка многомерных
массивов данных. В отличие от обычных данных, многомерные содержат от трех
и более параметров, позволяют оценить, как эти параметры влияют друг на
друга и предсказать значение одной из переменных по значениям остальных.
Измерений может быть больше трех, в этом случае система данных состоящая
52. Структура куба данных: пример предметно-ориентированного построения
Структура куба данных: пример предметноориентированного построенияКаждая ячейка куба представляет собой значение. Измерения
обозначены вдоль ребер куба. Каждая грань соответствует набору
значений, соответствующему положению на одной из трех шкал
измерений. Куб целиком представляет собой всю совокупность
данных, характеризующих, в данном случае объем продаж в разрезе
конкретных наименований товаров или регионов.
53. Структура куба данных: пример предметно-ориентированного наполнения
Структура куба данных: пример предметноориентированного наполненияВ процессе анализа данных активно используются
разнообразные формы их графического представления,
облегчающие понимание данных и обеспечивающие
возможности качественной оценки их свойств. В случае
недостаточности пассивного восприятия применяются
операции вращения куба данных, операция пролистывания
сечений куба и т. п.
54.
6. Репозиторий данных: назначение,состав метаданных
55. Репозиторий: определение понятия
Репозиторий – база данных, предназначенная дляхранения проектных метаданных (версий проекта и
его отдельных компонентов), синхронизации
поступления информации от различных
разработчиков при групповой разработке, контроля
метаданных на полноту и непротиворечивость.
Метаданные — это информация о данных, которая
требуется для управления хранилищем данных
56. Виды репозиториев и их особенности
Репозитории, входящие в состав популярных САSE-средств( англ. computer-aided software engineering): (Power Designer
(Sybase),Designer 2000 (Oracle), Silverrun (CSAResearch)), систем
разработки приложений (Developer 2000 (Oracle),Power Builder
(Sybase)), администрирования и поддержки информационных систем
(Platinum,MSP) решают частные задачи, работая с ограниченным
набором метаданных, и предназначены, в основном для облегчения
труда профессионалов — проектировщиков, разработчиков и
администраторов информационных систем.
Репозитории метаданных СППР на основе ХД предназначены не
только для профессионалов, но и для пользователей, которым он
служит в качестве поддержки при формировании бизнес-запросов.
Более того, развитая система управления метаданными должна
обеспечивать возможность управления бизнес-понятиями со стороны
пользователей, которые могут изменять содержание метаданных и
образовывать новые понятия по мере развития бизнеса.
Тем самым Репозиторий превращается из факультативного
инструмента в обязательный компонент СППР и ХД.
57. Метаданные: определение понятия
Метаданные – структурированные данные, описывающиеконтекст, содержание и структуру электронного документа,
предназначенные для его идентификации и поиска, а также
процессы управления на протяжении всего жизненного цикла
документа
Схема метаданных – унифицированный набор и структура
представления элементов метаданных, предназначенный для
формального описания электронных документов
ГОСТ Р 7.0.95-2015 СИБИД. Электронные документы. Основные
виды, выходные сведения, технологические характеристики. –
Москва: Стандартинформ, 2016.- 12 с.
58. Виды метаданных, размещаемых в централизованно управляемых репозиториях
информация о структуре данных в хранилище данных;информация о структурах данных, импортируемых из
различных источников;
информация о самих источниках, методах загрузки и
агрегирования данных;
сведения о средствах доступа, а также бизнес-правилах
оценки и представления информации;
информация о структуре бизнес-понятий.*
*Например, клиенты могут подразделяться на кредитоспособных и
некредитоспособных, на имеющих или не имеющих льготы; они могут быть
сгруппированы по возрастному признаку, по местам проживания и т.п. Отсюда
появляются новые понятия: постоянный клиент,перспективный клиент и т.п.
Некоторые бизнес-понятия (соответствующие измерениям в ХД) образуют
иерархии, например, товар может включать продукты питания и
лекарственные препараты, которые, в свою очередь, подразделяются на
группы продуктов и лекарств и т.д.
59. Трехмерная система метаданных
Трехмерная система метаданных в ИАС малогомасштаба с одной предметной областью или
небольшим их количеством включает:
метаданные оперативных баз данных —
источников данных для хранилища данных,
метаданные об использовании данных, то есть
об их назначении в интересах конечного
пользователя,
метаданные для управления хранилищем
данных.
software