Similar presentations:
Информационное обеспечение информационных систем и технологий управления строительной организацией
1.
Информационное обеспечениеинформационных систем и технологий
управления строительной организацией
2.
План лекции1. Понятие информационного обеспечения, его структура
2. Внемашинное информационное обеспечение
2.1. Система показателей
2.2. Основные понятия классификации технико-экономической информации
2.3. Унифицированная система документации и организация
документопотоков
3. Внутримашинное информационное обеспечение
3.1. Варианты организации внутримашинного информационного
обеспечения
3.2. Информационная база и способы ее организации
3.3. База данных, ее состав, модели баз данных
3.4. Хранилища данных и базы данных
3.5. OLAP – инструмент анализа данных
Контрольные вопросы
2
3.
1. Понятие информационного обеспечения, его структураНазначение подсистемы информационного обеспечения состоит в своевременном формировании и выдаче
достоверной информации для реализации функции управления и принятия управленческих решений.
Для создания информационного обеспечения необходимо:
ясное понимание целей, задач, функций всей системы управления организацией;
выявление движения представленной для анализа в виде схем информационных потоков информации от
момента возникновения и до ее использования на различных уровнях управления;
совершенствование системы документооборота;
наличие и использование системы классификации и кодирования;
владение методологией создания концептуальных информационно-логических моделей, отражающих
взаимосвязь информации;
создание массивов информации на машинных носителях, что требует наличия современного технического
обеспечения.
Информационное обеспечение ИС включает два комплекса: внемашинное информационное обеспечение
(классификаторы технико-экономической ин- формации, документы, методические инструктивные материалы) и
внутримашинное информационное обеспечение (макеты/экранные формы для ввода первичных данных в ЭВМ
или вывода результатной информации, структуры информационной базы — входных, выходных файлов, базы
данных).
3
4.
1. Понятие информационного обеспечения, его структураК информационному обеспечению предъявляются следующие общие требования:
обеспечение должно быть достаточным для поддержания всех автоматизируемых функций объекта;
для кодирования информации должны использоваться принятые у заказчика классификаторы;
для кодирования входной и выходной информации, которая используется на высшем уровне управления,
должны использоваться классификаторы этого уровня;
должна быть обеспечена совместимость с информационным обеспечением систем, взаимодействующих с
разрабатываемой системой;
формы документов должны отвечать требованиям корпоративных стандартов заказчика (или
унифицированной системы документации);
структура документов и экранных форм должна соответствовать характеристикам терминалов на рабочих
местах конечных пользователей;
графики формирования и содержание информационных сообщений, а также используемые аббревиатуры
должны быть общеприняты в этой предметной области и согласованы с заказчиком;
в ИС должны быть предусмотрены средства контроля входной и результатной информации, обновления
данных в информационных массивах, контроля целостности информационной базы, защиты от
несанкционированного доступа.
4
5.
2. Внемашинное информационное обеспечение2.1. Система показателей
Система показателей служит основой для построения элементов внемашинного и
внутримашинного информационного обеспечения и представляет собой совокупность
взаимосвязанных социальных экономических и технико-экономических показателей,
используемых для решения задач ИС. Она определяет содержание управленческих
документов и массивов.
Система показателей устанавливается также в зависимости от уровня управления:
корпорация, предприятие, подразделение и т.д.
5
6.
2. Внемашинное информационное обеспечение2.2. Основные понятия классификации технико-экономической информации
Для того чтобы обеспечить эффективный поиск, обработку на ЭВМ и передачу по каналам связи техникоэкономической информации, ее необходимо представить в цифровом виде. С этой целью ее нужно сначала
упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.
Классификация — это разделение множества объектов на подмножества по их сходству или различию в
соответствии с принятыми методами. Классификация позволяет установить связи между объектами. Под
объектом понимается любой предмет, процесс, явление материального или нематериального свойства.
Совокупность правил распределения объектов множества на подмножества называется системой
классификации.
Свойство (или характеристика объекта классификации), которое позволяет установить его сходство или
различие с другими объектами классификации, называется признаком классификации. Например, признак «роль
предприятия-партнера в отношении деятельности объекта автоматизации» позволяет разделить все предприятия
на две группы (на два подмножества): «поставщики» и «потребители». Множество или подмножество,
объединяющее часть объектов классификации по одному или нескольким признакам, носит название
классификационной группировки.
Классификатор — это документ, с помощью которого осуществляется формализованное описание
информации в ИС, содержащей наименования объектов, классификационных группировок и их кодовые
обозначения.
6
7.
2. Внемашинное информационное обеспечениеПо сфере действия выделяют следующие виды классификаторов: международные, общегосударственные
(общесистемные), отраслевые и локальные.
Международные классификаторы входят в состав Системы международных экономических стандартов
(СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества.
Общегосударственные (общесистемные) классификаторы обязательны для организации процессов передачи и
обработки информации между экономическими системами государственного уровня внутри страны. Отраслевые
классификаторы используют для выполнения процедур обработки информации и передачи ее между
организациями внутри отрасли. Локальные классификаторы используют в пределах отдельных предприятий.
Каждая система классификации характеризуется следующими свойствами:
гибкостью;
емкостью;
степенью заполненности.
Гибкость системы — это способность включения новых признаков, объектов без разрушения структуры
классификатора. Необходимая гибкость определяется временем жизни системы.
Емкость системы — это наибольшее количество классификационных группировок, допускаемых в данной
системе классификации.
Степень заполненности системы определяется как частное от деления фактического количества
группировок на величину емкости системы.
7
8.
2. Внемашинное информационное обеспечениеВ настоящее время чаще всего применяются два типа систем классификации: иерархическая и
многоаспектная.
При использовании иерархического метода классификации происходит «последовательное разделение
множества объектов на подчиненные, зависимые классификационные группировки». Получаемая на основе
этого процесса классификационная схема имеет иерархическую структуру. В ней классифицируемые объекты
разбиваются на подмножества по какому-либо признаку и детализируются на каждой следующей ступени
классификации.
Характерными особенностями иерархической системы являются:
возможность использования неограниченного количества признаков классификации;
соподчиненность признаков классификации, что выражается разбиением каждой классификационной
группировки, образованной по одному признаку, на множество классификационных группировок по
нижестоящему (подчиненному) признаку.
Таким образом, классификационные схемы, построенные на основе иерархического принципа, имеют
неограниченную емкость, величина которой зависит от глубины классификации (числа ступеней деления) и
количества объектов классификации, которое можно расположить на каждой ступени. Количество же объектов
на каждой ступени классификации определяется основанием кода, т.е. числом знаков в выбранном алфавите
кода. Выбор необходимой глубины классификации и структуры кода зависит от характера объектов
классификации и характера задач, для решения которых предназначен классификатор.
8
9.
2. Внемашинное информационное обеспечениеПри построении иерархической системы классификации сначала выделяется некоторое множество
объектов, подлежащее классифицированию, для него определяются полное множество признаков
классификации и их соподчиненность друг другу, затем производится разбиение исходного множества объектов
на классификационные группировки на каждой ступени классификации. К преимуществам данной системы
следует отнести логичность, простоту ее построения и удобство логической и арифметической обработки.
Серьезным недостатком иерархического метода классификации является жесткость классификационной
схемы. Она обусловлена заранее установленным выбором признаков классификации и порядком их
использования по ступеням классификации. Это ведет к тому, что при изменении состава объектов
классификации, их характеристик или характера решаемых при помощи классификатора задач требуется
коренная переработка классификационной схемы. Гибкость этой системы обеспечивается только за счет ввода
большой избыточности в ветвях, что приводит к слабой заполненности структуры классификатора. Поэтому при
разработке классификаторов следует учитывать, что иерархический метод классификации более предпочтителен
для объектов с относительно стабильными признаками и для решения многократно используемого комплекса
задач.
Многоаспектная система — это система классификации, которая использует параллельно несколько
независимых признаков (аспектов) в качестве основания классификации.
Аспект — точка зрения на объект классификации, который характеризуется одним или несколькими
признаками.
9
10.
2. Внемашинное информационное обеспечениеСуществуют два типа многоаспектных систем: фасетная и дескрипторная. Фасет — это аспект
классификации, который используется для образования независимых классификационных группировок.
Дескриптор — ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает
принадлежность этого объекта к классу, группе и т.д.
Под фасетным методом классификации понимается «параллельное разделение множества объектов на
независимые классификационные группировки». При этом методе классификации заранее жесткой
классификационной схемы и конечных группировок не создается. Разрабатывается лишь система таблиц
признаков объектов классификации, называемых фасетами. При необходимости создания классификационной
группировки для решения конкретной задачи осуществляется выборка необходимых признаков из фасет и их
объединение в определенной последовательности.
Внутри фасеты значения признаков могут просто перечисляться по некоторому порядку или образовывать
сложную иерархическую структуру, если существует соподчиненность выделенных признаков.
К преимуществам данной системы следует отнести большую емкость системы и высокую степень гибкости,
поскольку при необходимости можно вводить дополнительные фасеты и изменять их место в формуле. При
изменении характера задач или характеристик объектов классификации разрабатываются новые фасеты или
дополняются новыми признаками уже существующие фасеты без коренной перестройки структуры всего
классификатора.
К недостаткам можно отнести сложность структуры и низкую степень заполненности системы.
10
11.
2. Внемашинное информационное обеспечениеСодержание документов или показателей можно достаточно полно и точно отразить с помощью списка
ключевых слов — дескрипторов.
Для того чтобы обеспечить точность и однозначность поиска с помощью дескрипторного языка,
необходимо предварительно определить все постоянные отношения между терминами: родовидовые,
синонимии, омонимии, а также ассоциативные. Все выделенные отношения описываются в семантическом
словаре понятий — тезаурусе, который разрабатывается с целью проведения индексирования документов,
показателей и информационных запросов.
В современных классификационных схемах часто одновременно используются оба метода классификации.
Это снижает влияние недостатков методов классификации и расширяет возможность использования
классификаторов в информационном обеспечении управления. Например, при классификации продукции для
определения семейства продукции, группы продукции, серии используется иерархическая структура,
включающая:
код серии продукта;
конфигурационные параметры;
свойства.
При этом код серии продукта — алфавитно-цифровой, однозначно идентифицирует отдельный продукт.
Конфигурационные параметры — свойства, значения которых могут быть различными в зависимости от
потребностей пользователей. Свойства — предопределенные характеристики отдельных продуктов, которые не
могут меняться для одного и того же продукта.
11
12.
2. Внемашинное информационное обеспечениеРассмотренные выше системы классификации хорошо приспособлены для организации поиска с целью
последующей логической и арифметической обработки информации на ЭВМ, но лишь частично решают
проблему содержательного поиска информации при принятии управленческих решений.
Для полной формализации информации недостаточно простой классификации, поэтому осуществляют ее
кодирование. Кодирование — это процесс присвоения условных обозначений объектам и классификационным
группам по соответствующей системе кодирования. Кодирование реализует перевод информации, выраженной
одной системой знаков, в другую систему, т.е. перевод записи на естественном языке с помощью кодов. Система
кодирования — это совокупность правил обозначения объектов и группировок с использованием кодов. Код —
это условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой
системой. Число знаков этого множества называется основанием кода. Различают следующие типы алфавитов:
цифровой, буквенный и смешанный.
Код характеризуется следующими параметрами:
длиной;
основанием кодирования;
структурой кода, под которой понимают распределение знаков по признакам и объектам классификации;
степенью информативности, рассчитываемой как частное от деления общего количества признаков на
длину кода;
коэффициентом избыточности, который определяется как отношение максимального количества объектов к
фактическому количеству.
12
13.
2. Внемашинное информационное обеспечениеК кодам предъявляются определенные требования:
код должен осуществлять идентификацию объекта в пределах заданного множества объектов
классификации;
желательно предусматривать использование в качестве алфавита кода десятичных цифр и букв;
необходимо обеспечивать по возможности минимальную длину кода и достаточный резерв незанятых
позиций для кодирования новых объектов без нарушения структуры классификатора.
Методы кодирования могут быть регистрационными (носят самостоятельный характер) или
классификационными (основаны на предварительной классификации объектов).
Регистрационные методы кодирования бывают двух видов: порядковый и серийно-порядковый. В первом
случае кодами служат числа натурального ряда. Каждый из объектов классифицируемого множества кодируется
путем присвоения ему текущего порядкового номера. Данный метод кодирования обеспечивает довольно
большую долговечность классификатора при незначительной избыточности кода. Этот метод обладает
наибольшей простотой, использует наиболее короткие коды и лучше обеспечивает однозначность каждого
объекта классификации. Кроме того, он обеспечивает наиболее простое присвоение кодов новым объектам,
появляющимся в процессе ведения классификатора. Существенным недостатком порядкового метода
кодирования является отсутствие в коде какой-либо конкретной информации о свойствах объекта, а также
сложность машинной обработки информации при получении итогов по группе объектов классификации с
одинаковыми признаками.
13
14.
2. Внемашинное информационное обеспечениеВ серийно-порядковом методе кодирования кодами служат числа натурального ряда с закреплением
отдельных серий этих чисел (интервалов натурального ряда) за объектами классификации с одинаковыми
признаками. В каждой серии, кроме кодов имеющихся объектов классификации, предусматривается
определенное количество кодов для резерва.
Классификационные методы кодирования используют для отражения классификационных взаимосвязей
объектов и группировок в основном для сложной логической обработки экономической информации. Группу
классификационных систем кодирования можно разделить на две подгруппы — системы последовательного
кодирования и системы параллельного кодирования — в зависимости от того, какую систему классификации
используют для упорядочения объектов.
Последовательные системы кодирования характеризуются тем, что они базируются на предварительной
классификации по иерархической системе. Код объекта классификации образуется с использованием кодов
последовательно расположенных подчиненных группировок, полученных при иерархическом методе
кодирования. В этом случае код нижестоящей группировки образуется путем добавления соответствующего
количества разрядов к коду вышестоящей группировки.
Параллельные системы кодирования характеризуются тем, что они строятся на основе использования
фасетной системы классификации и коды группировок по фасетам формируются независимо друг от друга.
14
15.
2. Внемашинное информационное обеспечениеВ параллельной системе кодирования возможны два варианта записи кодов объекта:
Каждый фасет и признак внутри фасета имеет свои коды, которые включаются в состав кода объекта. Такой
способ записи удобно применять тогда, когда объекты характеризуются неодинаковым набором признаков. При
формировании кода какого-либо объекта берутся только необходимые признаки.
Для определения групп объектов выделяется фиксированный набор признаков и устанавливается
стабильный порядок их следования, т.е. устанавливается фасетная формула. В этом случае не надо каждый раз
указывать, значение какого из признаков приведено в определенных разрядах кода объекта.
Параллельный метод кодирования имеет ряд преимуществ. К достоинствам следует отнести гибкость
структуры кода, обусловленную независимостью признаков, из кодов которых строится код объекта
классификации. Метод позволяет использовать при решении конкретных технико-экономических и социальных
задач коды только тех признаков объектов, которые необходимы, что дает возможность работать в каждом
отдельном случае с кодами небольшой длины. При этом методе кодирования можно осуществлять группировку
объектов по любому сочетанию признаков. Параллельный метод кодирования хорошо приспособлен для
машинной обработки информации. По конкретной кодовой комбинации легко узнать, набором каких
характеристик обладает рассматриваемый объект. При этом из небольшого числа признаков можно образовать
большое число кодовых комбинаций. Набор признаков при необходимости может легко пополняться
присоединением кода нового признака. Это свойство параллельного метода кодирования особенно важно при
решении технико-экономических задач, состав которых часто меняется.
15
16.
2. Внемашинное информационное обеспечениеНаиболее сложными вопросами, которые приходится решать при разработке классификатора, являются
выбор методов классификации и кодирования и выбор системы признаков классификации. Основой
классификатора должны быть наиболее существенные признаки классификации, соответствующие характеру
решаемых с помощью классификатора задач. При этом данные признаки могут быть или соподчиненными, или
несоподчиненными. При соподчиненных признаках классификации и стабильном комплексе задач, для решения
которых предназначен классификатор, целесообразно использовать иерархический метод классификации,
который представляет собой последовательное разделение множества объектов на подчиненные
классификационные группировки. При несоподчиненных признаках классификации и при большой
динамичности решаемых задач целесообразно использовать фасетный метод классификации.
Важным вопросом является также правильный выбор последовательности использования признаков
классификации по ступеням классификации при иерархическом методе классификации. Критерием при этом
является статистика запросов к классификатору. В соответствии с этим критерием на верхних ступенях
классификации в классификаторе должны использоваться признаки, к которым будут наиболее частые запросы.
По этой же причине на верхних ступенях классификации выбирают наименьшее основание кода.
16
17.
2. Внемашинное информационное обеспечение2.3. Унифицированная система документации и организация документов
Основной компонентой внемашинного информационного обеспечения ИС является система документации,
применяемая в процессе управления экономическим объектом. Под документом понимается определенная
совокупность сведений, используемая при решении технико-экономической задачи, расположенная на
материальном носителе в соответствии с установленной формой.
Система документации — это совокупность взаимосвязанных форм документов, регулярно используемых в
процессе управления экономическим объектом. Отличительной особенностью системы экономической
документации является большое разнообразие видов документов.
Существующие системы документации, характерные для неавтоматизированных ИС, отличаются большим
количеством разных типов форм документов, большим объемом потоков документов и их запутанностью,
дублированием информации в документах и работ по их обработке и, как следствие, низкой достоверностью
получаемых результатов. Для того чтобы упростить систему документации, используют следующие два подхода:
проведение унификации и стандартизации документов;
введение безбумажной технологии, основанной на использовании электронных документов и новых
информационных технологий их обработки.
17
18.
2. Внемашинное информационное обеспечениеУнификация документов осуществляется путем создания единых форм документов, в которых
представлены показатели, единицы измерения и термины.
Таким образом, вводится единообразие в наименования показателей, единиц измерения и терминов.
Унифицированная система документации (УСД) — это рационально организованный комплекс
взаимосвязанных документов, который отвечает единым правилам и требованиям и содержит информацию,
необходимую для управления некоторым экономическим объектом. По уровням управления системы
документации делятся на межотраслевые системы, отраслевые и системы документации локального уровня, т.е.
обязательные для использования в рамках предприятий или организаций.
Любой тип УСД должен удовлетворять следующим требованиям:
документы, входящие в состав УСД, должны разрабатываться с учетом их использования в АИС;
УСД должна содержать полную информацию, необходимую для оптимального управления тем объектом,
для которого она разрабатывается;
УСД должна быть ориентирована на использование средств вычислительной техники для сбора, обработки
и передачи информации;
УСД должна обеспечить информационную совместимость АИС различных уровней;
все документы, входящие в состав разрабатываемой УСД, и все реквизиты-признаки в них должны быть
закодированы с использованием международных, общесистемных или локальных классификаторов.
18
19.
3. Внутримашинное информационное обеспечение3.1. Варианты организации внутримашинного информационного обеспечения
Внутримашинное информационное обеспечение включает макеты (экранные формы) для ввода первичных
данных в ЭВМ или вывода результатной информации и структуры информационной базы (входные, выходные
файлы, базы данных).
Электронный документ (ЭД) — это страница с пустыми полями, оставленными для заполнения
пользователем. Формы могут допускать различный тип входной информации и содержать командные кнопки,
переключатели, выпадающие меню или списки для выбора.
Создание форм электронных документов требует использования специального программного обеспечения.
К недостаткам электронных документов можно отнести неполную юридическую проработку процесса их
утверждения или подписания.
Технология обработки электронных документов требует использования специализированного программного
обеспечения — программ управления документооборотом, которые зачастую встраиваются в ИС.
Проектирование форм электронных документов, т.е. создание шаблона формы с помощью программного
обеспечения проектирования форм, обычно включает в себя выполнение следующих шагов:
создание структуры ЭД — подготовка внешнего вида с помощью графических средств проектирования;
определение содержания формы ЭД, т.е. выбор способов, которыми будут заполняться поля — вручную или
посредством выбора значений из какого- либо списка, меню, базы данных;
определение перечня макетов экранных форм — по каждой задаче проектировщик анализирует
«постановку» задачи, в которой приводятся перечни используемых входных документов с оперативной и
постоянной информацией и документов с результатной информацией;
определение содержания макетов — выполняется на основе анализа состава реквизитов первичных
документов с постоянной и оперативной информацией и результатных документов.
Работа заканчивается программированием разработанных макетов экранных форм и их апробацией. 19
20.
3. Внутримашинное информационное обеспечение3.2. Информационная база и способы ее организации
Основной частью внутримашинного информационного обеспечения является информационная база.
Информационная база (ИБ) — это совокупность данных, организованная определенным способом и хранимая в
памяти вычислительной системы в виде файлов, с помощью которых удовлетворяются информационные
потребности управленческих процессов и решаемых задач.
Файл представляет собой совокупность однородной жестко организованной и поименованной информации,
расположенной на машинном носителе. Это могут быть файлы данных и программные файлы, постоянные и
текущие (переменные) файлы, промежуточные и выходные файлы.
Все файлы ИБ можно классифицировать по следующим признакам:
по этапам обработки (входные, базовые, результатные);
по типу носителя (на промежуточных носителях — гибких магнитных дисках и магнитных лентах и на
основных носителях — жестких магнитных дисках, магнитооптических дисках и др.);
по составу информации (файлы с оперативной информацией и файлы с постоянной информацией);
по назначению (по типу функциональных подсистем);
по типу логической организации (файлы с линейной и иерархической структурой записи, реляционные,
табличные);
по способу физической организации (файлы с последовательным, индексным и прямым способом
доступа).
20
21.
3. Внутримашинное информационное обеспечениеВходные файлы создаются с первичных документов для ввода данных или обновления базовых файлов.
Файлы с результатной информацией предназначаются для вывода ее на печать или передачи по каналам
связи и не подлежат долговременному хранению. К числу базовых файлов, хранящихся в информационной базе,
относят основные, рабочие, промежуточные, служебные и архивные файлы.
Основные файлы должны иметь однородную структуру записей и могут содержать записи с оперативной и
условно-постоянной информацией. Оперативные файлы могут создаваться на базе одного или нескольких
входных файлов и отражать информацию одного или нескольких первичных документов. Файлы с условнопостоянной информацией могут содержать справочную, расценочную, табличную и другие виды информации,
изменяющейся в течение года не более чем на 40 %, а следовательно, имеющей коэффициент стабильности не
менее 0,6.
Файлы со справочной информацией должны отражать все характеристики элементов материального
производства (материалы, сырье, основные фонды, трудовые ресурсы и т.п.). Нормативно-расценочные файлы
должны содержать данные о нормах расхода и расценках на выполнение операций и услуг. Табличные файлы
содержат сведения об экономических показателях, считающихся постоянными в течение длительного времени
(например процент удержания, отчисления и пр.). Плановые файлы содержат плановые показатели, хранящиеся
весь плановый период.
Рабочие файлы создаются для решения конкретных задач на базе основных файлов путем выборки части
информации из нескольких основных файлов с целью сокращения времени обработки данных.
21
22.
3. Внутримашинное информационное обеспечениеПромежуточные файлы отличаются от рабочих файлов тем, что они образуются в результате решения
экономических задач и хранятся с целью дальнейшего использования для решения других задач. Эти файлы, так
же как и рабочие файлы, при высокой частоте обращений могут быть также переведены в категорию основных
файлов.
Служебные файлы предназначаются для ускорения поиска информации в основных файлах и включают в
себя справочники, индексные файлы и каталоги.
Архивные файлы содержат ретроспективные данные из основных файлов, которые используются для
решения аналитических, например прогнозных, задач. Архивные данные могут также использоваться для
восстановления информационной базы при разрушениях.
Организация хранения файлов в информационной базе должна отвечать следующим требованиям:
полнота хранимой информации для выполнения всех функций управления и решения экономических задач;
целостность хранимой информации, т.е. обеспечение непротиворечивости данных при вводе информации в
ИБ;
своевременность и одновременность обновления данных во всех копиях данных;
гибкость системы, т.е. адаптируемость ИБ к изменяющимся информационным потребностям;
реализуемость системы, обеспечивающая требуемую степень сложности структуры ИБ;
релевантность ИБ, под которой подразумевается способность системы осуществлять поиск и выдавать
информацию, точно соответствующую запросам пользователей;
удобство языкового интерфейса, позволяющее быстро формулировать запрос к ИБ;
разграничение прав доступа, т.е. определение для каждого пользователя доступных типов записей, полей,
файлов и видов операций над ними.
22
23.
3. Внутримашинное информационное обеспечениеСуществуют следующие направления создания ИБ:
использование совокупности локальных файлов, поддерживаемых функциональными пакетами прикладных
программ;
интегрированная база данных, основывающаяся на использовании универсальных программных средств
загрузки, хранения, поиска и ведения данных, т.е. системы управления базами данных (СУБД).
Локальные файлы вследствие специализации структуры данных под задачи обеспечивают, как правило,
более быстрое время обработки данных. Однако недостатки организации локальных файлов, связанные с
большим дублированием данных в информационной системе и, как следствие, с несогласованностью данных в
разных приложениях, а также негибкостью доступа к информации, перекрывают указанные преимущества.
Поэтому организация локальных файлов может применяться только в специализированных приложениях,
требующих очень высокой скорости реакции при импорте необходимых данных. Интегрированная ИБ, т.е. база
данных (БД) — это совокупность взаимосвязанных, хранящихся вместе данных при такой минимальной
избыточности, которая допускает их использование оптимальным образом для множества приложений.
Централизация управления данными с помощью СУБД обеспечивает совместимость этих данных,
уменьшение синтаксической и семантической избыточности, соответствие данных реальному состоянию
объекта, разделение хранения данных между пользователями и возможность подключения новых пользователей.
Но централизация управления и интеграция данных приводят к проблемам другого характера: необходимости
усиления контроля вводимых данных, а также обеспечения соглашения между пользователями по поводу
состава и структуры данных, разграничения доступа и секретности данных.
23
24.
3. Внутримашинное информационное обеспечениеОсновными способами организации БД является создание централизованных и распределенных БД.
Централизованная БД хранится в памяти одной вычислительной системы (применяется в локальных сетях
ПК).
Распределенная база данных состоит из нескольких возможно пересекающихся или даже дублирующих
друг друга частей, хранимых в различных ЭВМ вычислительной сети. Работа с такой базой осуществляется с
помощью системы управления распределенной базой данных (СУРБД).
Основным критерием выбора способа организации ИБ является достижение минимальных трудовых и
стоимостных затрат на проектирование структуры ИБ, программного обеспечения системы ведения файлов, а
также на перепроектирование ИБ при возникновении новых задач.
Автоматизированный банк данных (АБД) — это система специальным образом организованных данных, а
также технических, программных, языковых и организационно-методических средств, предназначенных для
коллективного использования пользователями при решении разных экономических задач.
Недостатки традиционного подхода организации массивов информации в памяти ЭВМ, при котором
разработка информационной базы ориентировалась на конкретные функциональные задачи, привели к
необходимости ориентации собственно на информацию, на данные, что обусловило переход от проблемноориентированной базы данных к информационно-ориентированной.
Все это обусловило новую организацию данных в ЭВМ, что нашло свое отражение в разработке банков
данных, представляющих собой совокупность баз данных пользователей, технических и программных средств
формирования и ведения этих баз.
24
25.
3. Внутримашинное информационное обеспечениеБанк данных строится из баз данных, каждая из которых представляет собой совокупность данных,
организованных по определенным правилам, предусматривающим общие принципы описания, хранения и
манипулирования данными. В базе данных накапливается и постоянно обновляется информация в виде
небольшого числа наборов данных, хранящихся в таблицах или нескольких файлах, каждый из которых
ориентирован на использование при решении многих задач управления. При этом основное внимание уделяется
непрерывному поддержанию в системе точной динамической информационной модели объекта управления.
Назначение таких наборов данных зависит от задач, стоящих перед информационными технологиями, и
отражает их специфику. По роли в машинной обработке и технологии использования наборы данных могут
подразделяться на следующие:
Постоянные. Относятся к категории нормативно-справочных, составляют информационный базис ИТ и
содержат сравнительно редко меняющиеся сведения. В их состав включаются классификаторы, справочники,
каталоги и прочая условно-постоянная информация. В наборах классификаторов хранятся коды и тексты
показателей хозяйствующего субъекта. Формируются они до начала эксплуатации системы. В процессе работы
они обновляются и изменяются по мере надобности.
Текущие (переменные). Включают переменную информацию, поступающую в систему от управляемого
объекта и характеризующую состояние внешней среды, а также сам процесс управления объектом.
…
25
26.
3. Внутримашинное информационное обеспечениеПромежуточные. Возникают на этапах решения задач и выполняют роль механизма, передающего
информацию от задачи к задаче или внутри задач.
Формирование этих наборов связано с потребностью в промежуточной информации, не имеющей
самостоятельного значения для целей управления.
Выходные. Хранят информацию, полученную в результате обработки исходной информации. Содержат
совокупность показателей, необходимых для анализа и принятия управленческих решений на уровне
руководителей подразделений (данные по лицевым счетам, численности работающих, фонду заработной платы и
т.д.).
Хранимые. Формируются на основе выходных и содержат информацию, необходимую для обработки в
будущих отчетных периодах, для сравнения, сопоставления данных за разные отчетные периоды, для расчетов
нарастающим итогом.
Поисковые (информационные). Представляют собой совокупность показателей, записей, ключей поиска,
характеризующих либо содержание определенных документов, либо конкретный объект, систему, организацию и
т.д.
Служебные. Содержат вспомогательную информацию, необходимую для обработки всех остальных видов
массивов.
26
27.
3. Внутримашинное информационное обеспечениеОсновные требования, предъявляемые к автоматизированным банкам данных, следующие:
сведение к минимуму дублирования в хранении данных;
прямой и коллективный доступ к данным;
защита данных от несанкционированного доступа;
адаптация данных к развитию информационного обеспечения;
обеспечение регламентированных и нерегламентированных запросов;
минимизация затрат на создание и хранение данных, на поддержание их в актуальном состоянии.
Базы данных могут организовываться на разных по мощности ЭВМ: от супер- ЭВМ до микро-ЭВМ, но
принципы организации АБД одинаковы.
Различают следующие типы банков данных:
централизованные, создаваемые обычно в вычислительных центрах, на ЭВМ с присоединенными к
ним терминалами;
распределенные в различных узлах локальных сетей ЭВМ;
локальные, расположенные на одном компьютере.
27
28.
3. Внутримашинное информационное обеспечениеВ состав АБД входят:
База данных (БД) — специальным образом организованное хранилище данных в виде интегрированной
совокупности взаимосвязанных файлов для быстрого доступа к ним.
ЭВМ.
Система управления базой данных (СУБД) — это программный продукт, обеспечивающий поддержку БД,
т.е. объявление (иными словами, сохранение) структуры БД, ввод, поиск, корректировку, удаление данных,
вывод по запросу. Наибольшее распространение получили следующие СУБД: корпоративные для крупных
предприятий (Oracle, Informix, SQL-Server и другие); функциональные для комплексов задач в больших АИС:
Access, dBase, Paradox, Fox PR0, Clipper и другие; локальные для отдельных задач АИС.
Языковые средства, в том числе языки программирования, языки запросов и ответов, языки описания
данных.
Методические средства — это инструкции и рекомендации по созданию и функционированию БД.
Персонал, использующий АБД.
При централизованном АБД обслуживание ведет администратор БД, в обязанности которого входят защита
и сохранность данных, удовлетворение ин- формационных потребностей пользователей, внесение изменений в
БД в соответствии с применяющейся предметной областью. Если БД распределенная или локальная, то сами
экономисты — конечные пользователи поддерживают базу данных в актуальном состоянии.
28
29.
3. Внутримашинное информационное обеспечениеБазы знаний (БЗ) или экспертные системы — это специальные компьютерные системы, основанные на
обобщении, анализе и оценке знаний высококвалифицированных специалистов-экспертов. Базы знаний
отражают конкретные предметные области.
Основными элементами информационной технологии, используемой в БЗ, являются: интерфейс
пользователя, база знаний, интерпретатор, модуль создания системы, ЭВМ.
Пользователь использует интерфейс для ввода запросов и команд в экспертную систему и получает
выходную информацию из нее. Выходная информация включает не только само решение, но и необходимые
объяснения.
Объяснения могут быть двух видов:
объяснение, выдаваемое по запросам, т.е. то объяснение, которое может получить пользователь в
любой момент;
объяснение, которое пользователь получает уже при выдаче решения.
К базе знаний относятся факты, характеризующие проблемную область, а также их логическая взаимосвязь.
Центральным звеном здесь являются правила, которых даже в простейшей задаче экспертных систем может
насчитываться тысячи. Правила определяют порядок действий в конкретной ситуации при выполнении того или
другого условия.
29
30.
3. Внутримашинное информационное обеспечениеИнтерпретатор в определенном порядке производит обработку знаний, находящихся в базе. Используются
также и дополнительные блоки: база данных, блок расчета, блок ввода, корректировки данных. Модуль создания
системы служит для создания набора правил, внесения в них изменений. Здесь могут использоваться как
специальные алгоритмические языки, так и оболочки экспертных систем. Более совершенным считается
использование оболочек экспертных систем, т.е. программных средств, ориентированных на решение
определенной проблемы путем создания соответствующей базы знаний. Этот путь является, как правило, более
быстрым и менее трудоемким.
Факторами, которые влияют на качество БЗ, являются:
обучение и тренировка;
сами знания специалистов;
свод обновляющихся методов решений.
30
31.
3. Внутримашинное информационное обеспечение3.3. База данных, ее состав, модели баз данных
Активная деятельность по отысканию приемлемых способов обобществления непрерывно растущего
объема информации привела к созданию в начале 60-х гг. прошлого века специальных программных комплексов,
называемых «Системы управления базами данных» (СУБД).
Основная особенность СУБД — это наличие процедур для ввода и хранения не только самих данных, но и
описаний их структуры. Файлы, снабженные описанием хранимых в них данных и находящиеся под
управлением СУБД, называются «Базы данных» (БД).
База данных — это независимая от прикладных программ совокупность связанных данных, организованных
по определенным правилам, предусматривающим общие правила хранения и манипулирования данными. База
данных является информационной моделью предметной области. Обращение к базам данных осуществляется с
помощью системы управления базами данных.
Традиционных возможностей файловых систем оказывается недостаточно для построения даже простых
информационных систем. Существует несколько потребностей, которые не покрываются возможностями систем
управления файлами: поддержание логически согласованного набора файлов; обеспечение языка
манипулирования данными; восстановление информации после разного рода сбоев; параллельная работа
нескольких пользователей. Можно считать, что если прикладная информационная система опирается на
некоторую систему управления данными, обладающую этими свойствами, то эта система управления данными
является системой управления базами данных (СУБД).
31
32.
3. Внутримашинное информационное обеспечениеБолее точно, к числу функций СУБД принято относить следующие:
управление данными во внешней памяти;
управление буферами оперативной памяти;
управление транзакциями;
журнализация и восстановление БД после сбоев;
поддержание языков БД.
Организация типичной СУБД и состав ее компонентов соответствует рас- смотренному набору функций.
Наиболее часто используемыми современными СУБД являются реляционные, которые основаны на
реляционной модели данных.
Логически в современной реляционной СУБД можно выделить внутреннюю часть — ядро СУБД (часто его
называют Data Base Engine), компилятор языка БД (обычно SQL), подсистему поддержки времени выполнения,
набор утилит. В некоторых системах эти части выделяются явно, в других — нет, но логически такое разделение
можно провести во всех СУБД.
32
33.
3. Внутримашинное информационное обеспечениеЯдро СУБД отвечает за управление данными во внешней памяти, управление буферами оперативной
памяти, транзакциями и журнализацию. Соответственно можно выделить такие компоненты ядра (по крайней
мере, логически, хотя в некоторых системах эти компоненты выделяются явно), как менеджер данных, менеджер
буферов, менеджер транзакций и менеджер журнала. Функции этих компонентов взаимосвязаны, и для
обеспечения корректной работы СУБД все эти компоненты должны взаимодействовать по тщательно
продуманным и проверенным протоколам. Ядро СУБД обладает собственным интерфейсом, не доступным
пользователям напрямую и используемым в программах, производимых компилятором SQL (или в подсистеме
поддержки выполнения таких программ) и утилитах БД. Ядро СУБД является основной резидентной частью
СУБД. При использовании архитектуры клиент — сервер ядро является основной составляющей серверной
части системы.
Основной функцией компилятора языка БД является компиляция операторов языка БД в некоторую
выполняемую программу. Основной проблемой реляционных СУБД является то, что языки этих систем (а это,
как правило, SQL) являются непроцедурными, т.е. в операторе такого языка специфицируется некоторое
действие над БД, но эта спецификация не является процедурой, а лишь описывает в некоторой форме условия
совершения желаемого действия. Поэтому компилятор должен решить, каким образом выполнять оператор
языка прежде, чем произвести программу.
33
34.
3. Внутримашинное информационное обеспечениеРезультатом компиляции является выполняемая программа, представляемая в некоторых системах в
машинных кодах, но более часто в выполняемом внутреннем машинно-независимом коде. В последнем случае
реальное выполнение оператора производится с привлечением подсистемы поддержки времени выполнения,
представляющей собой, по сути дела, интерпретатор этого внутреннего языка.
Наконец, в отдельные утилиты БД обычно выделяют такие процедуры, которые слишком накладно
выполнять с использованием языка БД, например, загрузка и выгрузка БД, сбор статистики, глобальная проверка
целостности БД и т.д. Утилиты программируются с использованием интерфейса ядра СУБД, а иногда даже с
проникновением внутрь ядра.
Система баз данных — это, по сути, не что иное, как компьютеризированная система хранения записей.
Саму же базу данных можно рассматривать как подобие электронной картотеки, т.е. хранилище или контейнер
для некоторого набора занесенных в компьютер файлов данных. Пользователям этой системы предоставляется
возможность выполнять множество различных операций над такими файлами, например:
добавлять новые пустые файлы в базу данных;
вставлять новые данные в существующие файлы;
получать данные из существующих файлов;
изменять данные в существующих файлах;
удалять данные из существующих файлов;
удалять существующие файлы из базы данных.
34
35.
3. Внутримашинное информационное обеспечениеПреимущества системы баз данных по сравнению с традиционным «бумажным» методом ведения учета
очевидны:
Компактность. Нет необходимости в создании и ведении многотомных бумажных картотек.
Скорость. Компьютер может выбирать и обновлять данные гораздо быстрее человека. В частности, с его
помощью можно быстро получать ответы на произвольные вопросы, возникающие в процессе работы, не
затрачивая времени на визуальный поиск или поиск вручную.
Низкие трудозатраты. Нет необходимости в утомительной работе над картотекой вручную. Механическую
работу машины всегда выполняют лучше.
Актуальность. В случае необходимости в любой момент можно получить точную свежую информацию.
Эти преимущества приобретают еще большее значение в многопользовательской среде, где база данных
больше и сложнее однопользовательской. Кроме того, многопользовательская среда имеет дополнительное
преимущество: система баз данных предоставляет предприятию средства централизованного управления его
данными (именно возможность такого управления является наиболее ценным свойством базы данных).
Представьте себе противоположную ситуацию: предприятие не использует систему баз данных, в которой для
каждого отдельного приложения создаются свои файлы, чаще всего размещаемые на отдельных магнитных
лентах или дисках, в результате чего данные оказываются разрозненными. Систематически управлять такими
данными очень сложно.
На практике при проектировании баз данных используется централизованный подход к управлению
данными.
35
36.
3. Внутримашинное информационное обеспечениеМожно выделить следующие преимущества этого подхода:
Возможность совместного доступа к данным. Совместный доступ к данным означает не только
возможность доступа к ним нескольких существующих приложений базы данных, но и возможность разработки
новых приложений для работы с этими же данными Другими словами, требования новых приложений по
доступу к данным могут быть удовлетворены без необходимости добавления новых данных в базу.
Сокращение избыточности данных. В системах, не использующих базы данных, каждое приложение имеет
свои файлы. Это часто приводит к избыточности хранимых данных и, следовательно, к расточительству
пространства вторичной памяти. Например, как приложение, связанное с учетом персонала, так и приложение,
связанное с учетом обучения служащих, могут иметь собственные файлы с ведомственной информацией о
служащих. Эти два файла можно объединить с устранением избыточности (одинаковой информации) при
условии, что администратор данных знает о том, какие данные нужны для каждого приложения, т.е. что на
предприятии осуществляется необходимое общее управление.
Устранение противоречивости данных. В действительности это следствие предыдущего пункта. Например:
пусть служащий с номером «Е3», работающий в отделе с номером «D8» представлен двумя различными
записями в базе данных. Пусть в СУБД не учтено это раздвоение (т.е. избыточность данных не контролируется).
Тогда рано или поздно обязательно возникнет ситуация, при которой эти две записи перестанут быть
согласованными, когда одна из них будет изменена, а другая — нет. В этом случае база данных станет
противоречивой. Ясно, что противоречивая база данных способна предоставлять пользователю неправильную,
противоречивую информацию.
36
37.
3. Внутримашинное информационное обеспечениеТакже очевидно, что если какой-либо факт представлен одной записью (т.е. при отсутствии избыточности),
то противоречий возникнуть не может. Противоречий можно также избежать, если не удалять избыточность, а
контролировать ее (соответствующим образом известив об этом СУБД). Тогда СУБД сможет гарантировать, что,
с точки зрения пользователя, база данных никогда не будет противоречивой. Данная гарантия обеспечивается
тем, что если обновление вносится в одну запись, то оно автоматически будет распространено на все остальные.
Этот процесс называется распространением обновлений (propagating updates).
Возможность поддержки транзакций. Транзакция (transaction) — это логическая единица работы, обычно
включающая несколько операций базы данных (в частности, несколько операций изменения). Стандартный
пример — передача суммы денег со счета А на счет В. Очевидно, что в данном случае необходимы два
изменения: изъятие денег со счета А и их внесение на счет В. Если пользователь укажет, что оба изменения
входят в одну и ту же транзакцию, то система сможет реально гарантировать, что либо оба эти изменения будут
выполнены, либо не будет выполнено ни одно из них, даже если до завершения процесса изменений в системе
произойдет сбой (скажем, из-за перерыва в подаче электроэнергии).
Упомянутое выше свойство единичности (неделимости) транзакций — это не единственное преимущество
от поддержки транзакций. Однако в отличие от прочих оно вполне применимо даже в однопользовательской
среде. (Часто в однопользовательских системах поддержка транзакций совсем не предоставляется, а подобные
проблемы перекладываются на плечи пользователя.)
37
38.
3. Внутримашинное информационное обеспечениеОбеспечение целостности данных. Задача обеспечения целостности заключается в гарантированной
поддержке корректности данных в базе. Противоречивость между двумя записями, представляющими один
«факт», является примером утраты целостности данных. Конечно, эта конкретная проблема может возникнуть
лишь при наличии избыточности в хранимых данных. Но даже если избыточность отсутствует, база данных
может содержать некорректную информацию. Например, в базе данных может быть указано, что сотрудник
отработал 400 рабочих часов в неделю вместо 40, или зафиксирована его принадлежность к отделу, которого не
существует. Централизованное управление базой данных позволяет избежать подобных проблем (насколько их
вообще возможно избежать). Для этого администратор данных определяет (а АБД реализует) ограничения
целостности (integrity constraints), иначе называемые бизнес-правилами, которые будут применяться при любой
попытке внести какие-либо изменения в соответствующие данные.
Целостность данных для многопользовательских систем баз данных даже более важна, чем для среды с
«частными файлами», причем именно по той при- чине, что такая база данных поддерживает совместный
доступ. При отсутствии должного контроля один пользователь вполне может некорректно обновить данные, от
чего пострадают многие другие ни в чем не повинные пользователи. Следует также сказать, что в большинстве
существующих коммерческих СУБД поддержка ограничений целостности развита слабо, хотя в настоящее время
в этом направлении наблюдаются некоторые улучшения. Приходится констатировать тот печальный факт, что
ограничения целостности имеют значительно более фундаментальное и критически важное значение, чем это
обычно признается на текущий момент.
38
39.
3. Внутримашинное информационное обеспечениеОрганизация защиты данных. Благодаря полному контролю над базой данных администратор базы данных
(АБД) может обеспечить доступ к ней только через определенные каналы. Для этой цели могут устанавливаться
ограничения защиты (security constraints) или правила, которые будут проверяться при любой попытке доступа к
уязвимым данным. Можно установить различные правила для разных типов доступа (выборка, вставка, удаление
и т.д.) к каждому из элементов информации в базе данных. Однако следует заметить, что при отсутствии таких
правил безопасность данных подвергается большему риску, чем в обычной (разобщенной) файловой системе.
Следовательно, централизованная природа системы баз данных в определенном смысле требует наличия
надежной системы защиты.
Возможность балансировки противоречивых требований. Зная общие требования всего предприятия (а не
требования каждого отдельного пользователя), АБД (опять же в соответствии с указаниями администратора
данных) может структурировать базу данных таким образом, чтобы обслуживание было наилучшим для всего
предприятия. Например, администратор базы может выбрать такое физическое представление данных во
вторичной памяти, которое обеспечит быстрый доступ к информации для наиболее важных приложений
(возможно, с потерей производительности для некоторых других приложений).
Возможность введения стандартизации. Благодаря централизованному управлению базой данных АБД (по
указаниям администратора данных) может обеспечить соблюдение всех подходящих стандартов,
регламентирующих представление данных в системе. Стандарты бывают частными, корпоративными,
ведомственными, промышленными, национальными и интернациональными. Стандартизация представления
данных очень важна с точки зрения обмена и пересылки данных между системами. Стандарты именования и
документирования данных важны для их совместного использования и углубленного понимания.
39
40.
3. Внутримашинное информационное обеспечениеНезависимость данных. Независимость данных может быть реализована на двух уровнях: физическом и
логическом. Здесь будет рассмотрена только физическая независимость данных.
Проще всего разобраться в понятии независимости данных на примере их противоположности.
Приложения, реализованные в старых системах («дореляционные» или созданные даже до появления систем баз
данных), в той или иной мере зависимы от данных. Это означает, что способ организации данных во вторичной
памяти и способ доступа к ним диктуются требованиями приложения. Более того, сведения об организации
данных и способе доступа к ним встроены в саму логику и программный код приложения.
Например, пусть есть приложение, обрабатывающее файл EMPLOYEE. Пусть этот файл проиндексирован
по полю имени работника (NAME). В старых системах в этом приложении учитывалось бы, что такой индекс
существует и что последовательность записей в файле определена данным индексом. На основе этих сведений
была бы построена вся внутренняя структура приложения. В частности, избранный способ реализации процедур
доступа и обработки исключительных ситуаций в значительной степени зависел бы от особенностей
интерфейса, предоставляемого программами управления данными.
Приложения, подобные описанному, называются зависимыми от данных, так как невозможно изменить
физическое представление (т.е. способ физического размещения данных во вторичной памяти) или метод
доступа (т.е. конкретный способ доступа к данным), не изменив самого приложения (возможно, радикально).
Например, невозможно заменить индексированный файл в нашем примере хешированным файлом, не внеся в
приложение значительных изменений. Более того, изменению в подобных случаях подлежат те части
приложения, которые взаимодействуют с программами управления данными. Трудности, возникающие при этом,
не имеют никакого отношения к проблеме, для решения которой было написано данное приложение; это
трудности, внесенные используемой структурой интерфейса управления данными.
40
41.
3. Внутримашинное информационное обеспечениеТаким образом, обеспечение независимости данных — важнейшая цель создания систем баз данных.
Независимость данных можно определить как иммунитет приложений к изменениям в физическом
представлении данных и в методах доступа к ним, а это означает, что рассматриваемые приложения не зависят
от любых конкретных способов физического представления информации или выбранных методов доступа к ним.
Для обработки данных используется аппарат теории множеств (объединение, пересечение, разность,
декартово произведение), в котором любое представление данных сводится к совокупности двумерных таблиц
особого вида, известного в математике как отношение — relation (англ.).
Наименьшая единица данных реляционной модели — это отдельное атомарное (неразложимое) для данной
модели значение данных. Так, в одной предметной области фамилия, имя и отчество могут рассматриваться как
единое значение, а в другой — как три различных значения.
41
42.
3. Внутримашинное информационное обеспечениеОсновными понятиями реляционных баз данных являются тип данных, домен, атрибут, кортеж, отношение,
первичный ключ, схема отношения, схема базы данных, степень отношения. Рассмотрим эти понятия:
Тип данных. Понятие тип данных в реляционной модели данных полностью адекватно понятию типа
данных в языках программирования. Обычно в со- временных реляционных БД допускается хранение
символьных, числовых данных, битовых строк, специализированных числовых данных (таких как «деньги»), а
также специальных «темпоральных» данных (дата, время, временной интервал). Достаточно активно
развивается подход к расширению возможностей реляционных систем абстрактными типами данных.
Домен. Доменом называется множество атомарных значений одного и того же типа. Понятие домена более
специфично для баз данных, хотя и имеет некоторые аналогии с подтипами в некоторых языках
программирования. В самом общем виде домен определяется заданием некоторого базового типа данных, к
которому относятся его элементы, и произвольного логического выражения, применяемого к элементу типа
данных. Если вычисление этого логического выражения дает результат «истина», то элемент данных является
элементом домена.
42
43.
3. Внутримашинное информационное обеспечениеАтрибут. Под атрибутом понимается поименованная характеристика сущности. Его наименование должно
быть уникальным для конкретного типа сущности, но может быть одинаковым для различного типа сущностей
(например, «цвет» может быть определен для многих сущностей как «цветок», «автомобиль», «краска» и т.д.).
Атрибуты используются для определения того, какая информация должна быть собрана о сущности. Примерами
атрибутов для сущности «автомобиль» являются «тип», «марка», «номерной знак», «цвет» и т.д. Здесь также
существует различие между типом и экземпляром. Тип атрибута «цвет» имеет много экземпляров или значений
— «красный», «синий», «желтый», «белый» и т.д., однако каждому экземпляру сущности присваивается только
одно значение атрибута.
Абсолютное различие между типами сущностей и атрибутами отсутствует. Атрибут является таковым
только в связи с типом сущности. В другом контексте атрибут может выступать как самостоятельная сущность.
Например, для автомобильного завода цвет — это только атрибут продукта производства, а для лакокрасочной
фабрики цвет — тип сущности.
Кортеж, отношение. Кортеж, соответствующий данной схеме отношения, — это множество пар — {имя
атрибута, значение}, которое содержит одно вхождение каждого имени атрибута, принадлежащего схеме
отношения. «Значение» является допустимым значением домена данного атрибута (или типа данных, если
понятие домена не поддерживается). Тем самым, степень, или «арность» кортежа, т.е. число элементов в нем,
совпадает с «арностью» соответствующей схемы отношения. Попросту говоря, кортеж — это набор
именованных значений заданного типа. Отношение — это множество кортежей, соответствующих одной схеме
отношения.
43
44.
3. Внутримашинное информационное обеспечениеПервичный ключ. Каждая сущность обладает хотя бы одним возможным ключом. Один из них принимается
за первичный ключ. При выборе первичного ключа следует отдавать предпочтение несоставным ключам или
ключам, составленным из минимального числа атрибутов.
Не допускается, чтобы первичный ключ сущности (любой атрибут, участвующий в первичном ключе)
принимал неопределенное значение. Иначе возникнет противоречивая ситуация: появится не обладающий
индивидуальностью, и, следовательно, не существующий экземпляр сущности. По тем же причинам необходимо
обеспечить уникальность первичного ключа.
Схема отношения, схема базы данных. Схема отношения — это поименованное множество пар — {имя
атрибута, имя домена (или типа, если понятие домена не поддерживается)}. Схема базы данных (в структурном
смысле) — это набор именованных схем отношений.
Степень отношения. Под степенью отношения понимается число его атрибутов.
44
45.
3. Внутримашинное информационное обеспечение3.4. Хранилища данных и базы данных
Хранилище данных (data warehouse) — это автоматизированная информационно-технологическая система,
которая собирает данные из существующих баз и внешних источников, формирует, хранит и использует
информацию как единую. Хранилище обеспечивает инструментарий для преобразования больших объемов
детализированных данных в форму, которая удобна для стратегического планирования и реорганизации бизнеса
и необходима специалисту, ответственному за принятие решений. При этом происходит слияние из разных
источников различных сведений в требуемую предметно-ориентированную форму с использованием различных
методов анализа.
Особенность организации хранения данных в том, что она предлагает среду накопления данных, которая
надежна, а доступ к данным и манипулирование ими по сравнению с распределенными СУБД оптимальны.
Хранилище информации предназначено для хранения, оперативного получения и анализа интегрированной
информации по всем видам деятельности организации.
45
46.
3. Внутримашинное информационное обеспечениеДанные в таком хранилище характеризуются следующими свойствами:
предметная ориентация — данные организованы согласно предмету, а не приложению (в соответствии со
способом данных);
интегрированность — данные согласуются с определенной системой наименований, хотя могут
принадлежать различным источникам и их формы представления могут не совпадать;
упорядоченность во времени — данные согласуются во времени для использования в сравнениях, трендах и
прогнозах;
неизменяемость и целостность — данные не обновляются и не изменяются, а только перезагружаются и
считываются, поддерживая концепцию «одного правдивого источника»;
большой объем и сложные взаимосвязи данных.
К основным типам данных, которые располагаются в хранилище, относятся:
метаданные, описывающие способы извлечения информации из различных источников; методы их
преобразования из различных структур и форматов и доставки в хранилище;
фактические (архивы), отражающие состояние предметной области и конкретные моменты времени;
суммарные, полученные на основе проведенных аналитических расчетов.
46
47.
3. Внутримашинное информационное обеспечениеВ информационных хранилищах используются статистические технологии, генерирующие информацию об
информации; процедуры суммирования; методы обработки электронных документов, аудио- и
видеоинформации, графов и географических карт.
Для уменьшения размера информационного хранилища до минимума при сохранении максимального
количества информации применяются эффективные методы сжатия данных.
Для преобразования данных из хранилища в предметно ориентированную форму используются языки
запросов нового поколения. Руководителям организации данные доступны посредством SQL-запросов,
инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений,
многомерного просмотра данных посредством гипертекстовой технологии. Для хранения данных обычно
используются выделенные серверы или кластеры серверов (группа накопителей, видеоустройств с общим
контроллером).
47
48.
3. Внутримашинное информационное обеспечениеСоздание информационного хранилища данных требует решения ряда организационных вопросов, а также
удовлетворения следующих требований к аппаратному и программному обеспечению:
Скорость загрузки. В хранилищах необходимо обеспечить периодическую загрузку новых порций данных,
укладывающихся в достаточно узкий временной интервал. Требуемая производительность процесса загрузки не
должна накладывать ограничения на размер хранилища.
Технология загрузки. Загрузка новых данных в хранилище включает преобразование данных, фильтрацию,
переформатирование, проверку целостности, организацию физического хранения, индексирование и обновление
метаданных. Это дает возможность объединить разнородную информацию из пакетов, применяемых в
структурных подразделениях организации.
Управление качеством данных. В хранилище должна быть обеспечена локальная и глобальная
согласованность данных. Мера качества построенного хранилища — объективность исходных данных и степень
разнообразия возможных запросов.
Поддержка различных видов данных. В хранилище могут накапливаться данные не только стандартных
типов, но и более сложных, таких, как текст, изображения, а также уникальных типов, определяемых
разработчиками.
Скорость обработки запросов. Сложные запросы, важные для принятия ответственных решений, должны
обрабатываться за секунды или минуты. Скорость обработки запроса должна зависеть от его сложности, а не от
объема БД.
48
49.
3. Внутримашинное информационное обеспечениеМасштабируемость. Хранилище организации может достигнуть нескольких сотен гигабайт. СУБД не
должна иметь никаких архитектурных ограничений и должна поддерживать модульную и параллельную
обработку, сохранять работоспособность в случае локальных аварий и иметь средства восстановления.
Обслуживание большого числа пользователей. Доступ к хранилищу данных не ограничивается узким
кругом специалистов организации. Сервер БД должен поддерживать сотни пользователей без снижения скорости
обработки запросов.
Сети хранилищ данных. Сервер должен содержать инструменты, координирующие перемещение данных
между хранилищем организации, информационными системами банков и т.п. Пользователи должны иметь
возможность обращаться к нескольким хранилищам с одной клиентской рабочей станции.
Администрирование. СУБД должна обеспечить контроль за ресурсными ограничениями, сообщать о
затратах ресурсов и позволять устанавливать приоритеты для различных категорий пользователей или операций,
а кроме того, уметь осуществлять трассировку и настройку системы на максимальную производительность.
Качество построенного хранилища определяется удобством доступа к нему для конечного пользователя.
Интегрированные средства многомерного анализа. Для обеспечения высокопроизводительной
аналитической обработки необходимы средства много-мерных представлений, инструменты, поддерживающие
удобные функции создания предварительно вычисленных суммарных показателей и автоматизирующих
генерацию таких предварительно вычисленных агрегированных величин.
Средства формирования запросов. Пользователь должен иметь возможность проведения аналитических
расчетов, последовательного и сравнительного анализа, а также доступ к детальной и агрегированной
информации.
49
50.
3. Внутримашинное информационное обеспечениеПримером информационного хранилища может служить Oracle VLM, разработанная фирмами Oracle и
Digital.
В информационном хранилище Oracle VLM увеличился объем кэш-памяти (быстродействующей памяти)
для обмена с сервером базы данных, что сократило время обращения к диску с миллисекунд до микросекунд.
Например, «маленькая» база данных объемом 5 Гб целиком загружается в кэш-память. Поскольку кэш-память
базы данных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на
ее размер и оперирует с большой, системной областью памяти LSGA.
Увеличился максимальный размер обрабатываемого блока базы данных до 32 кб. Обычно он равнялся 2 кб,
а максимальный — 8 кб. Обрабатываемый блок базы данных содержит управляющую часть (заголовок) и
собственно данные. Если данные (графика, аудио-, видеоданные, изображения) не помещаются в блок целиком,
строится цепочка блоков.
Использование информационных хранилищ дает существенный выигрыш по производительности в
системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления
данных.
На вопрос, зачем строить хранилища данных, ведь они содержат заведомо избыточную информацию,
которая и так находится в базах или файлах оперативных систем, ответить можно кратко: анализировать данные
оперативных систем напрямую невозможно или очень затруднительно. Это объясняется различными причинами,
в том числе разрозненностью данных, хранением их в форматах различных СУБД и на разных серверах
корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД (что бывает
крайне редко), аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах. Таким
образом, задача хранилища — предоставить данные для анализа в одном месте и в простой, понятной структуре.
Есть и еще одна причина, оправдывающая появление отдельного хранилища: сложные аналитические
запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и
захватывая ресурсы сервера.
50
51.
3. Внутримашинное информационное обеспечение3.5. OLAP – Инструмент анализа данных
Централизация и удобное структурирование — это далеко не все, что нужно аналитику. Ему требуется
инструмент для просмотра, визуализации информации. Традиционные отчеты, даже построенные на основе
единого хранилища, лишены одного — гибкости. Их нельзя «покрутить», «развернуть» или «свернуть», чтобы
получить желаемое представление данных. Аналитик может проверить за день не более двух-трех идей. А ему
может потребоваться проверять по нескольку идей в час. И чем больше «срезов» и «разрезов» данных аналитик
видит, тем больше у него идей, которые, в свою очередь, для проверки требуют все новых и новых «срезов». Ему
нужен такой инструмент, который позволил бы разворачивать и сворачивать данные просто и удобно. В качестве
такого инструмента и выступает OLAP.
OLAP не представляет собой необходимый атрибут хранилища данных, но он все чаще применяется для
анализа накопленных в хранилище сведений.
Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в
реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения
отчетов. Затем данные подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД
OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, т.е.
информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное
взаимодействие различных компонентов хранилища. То есть можно определить OLAP как совокупность средств
многомерного анализа данных, накопленных в хранилище.
51
52.
3. Внутримашинное информационное обеспечениеOLAP предоставляет удобные быстродействующие средства доступа, просмотра и анализа деловой
информации. Пользователь получает естественную, интуитивно понятную модель данных, организуя их в виде
многомерных кубов (Cubes). Осями многомерной системы координат служат основные атрибуты
анализируемого бизнес-процесса. Например, для продаж это могут быть товар, регион, тип покупателя. В
качестве одного из измерений используется время. На пересечениях осей — измерений (Dimensions) —
находятся данные, количественно характеризующие процесс — меры (Measures). Это могут быть объемы
продаж в штуках или в денежном выражении, остатки на складе, издержки и т.п. Пользователь, анализирующий
информацию, может «разрезать» куб по разным направлениям, получать сводные (например по годам) или,
наоборот, детальные (по неделям) сведения и осуществлять прочие манипуляции, которые ему придут в голову в
процессе анализа.
Многомерность в OLAP-приложениях может быть разделена на три уровня:
Многомерное представление данных — средства конечного пользователя, обеспечивающие многомерную
визуализацию и манипулирование данными; слой многомерного представления абстрагирован от физической
структуры данных и воспринимает данные как многомерные.
Многомерная обработка — средство (язык) формулирования многомерных запросов (традиционный
реляционный язык SQL здесь оказывается непригодным) и процессор, умеющий обработать и выполнить такой
запрос.
Многомерное хранение — средства физической организации данных, обеспечивающие эффективное
выполнение многомерных запросов.
52
53.
3. Внутримашинное информационное обеспечениеПервые два уровня в обязательном порядке присутствуют во всех OLAP- средствах. Третий уровень не
обязателен, так как данные для многомерного представления могут извлекаться и из обычных реляционных
структур; процессор многомерных запросов в этом случае транслирует многомерные запросы в SQL-запросы,
которые выполняются реляционной СУБД.
Конкретные OLAP-продукты, как правило, представляют собой либо средство многомерного представления
данных — OLAP-клиент, либо многомерную серверную СУБД — OLAP-сервер.
Слой многомерной обработки обычно бывает встроен в OLAP-клиент и/ или в OLAP-сервер, но может быть
выделен в чистом виде, как, например, компонент Pivot Table Service фирмы Microsoft.
Средства OLAP-анализа могут извлекать данные и непосредственно из реляционных систем. Сегодня и
Oracle, и Informix, и Microsoft предлагают полноценные OLAP-серверы.
OLAP-серверы, или серверы многомерных БД, могут хранить свои многомерные данные по-разному. В
любом хранилище данных (и в обычном, и в многомерном) наряду с детальными данными, извлекаемыми из
оперативных систем, хранятся и суммарные показатели (агрегированные показатели, агрегаты), такие, как
суммы объемов продаж по месяцам, по категориям товаров и т.п. Агрегаты хранятся в явном виде с
единственной целью — ускорить выполнение запросов. Так как с одной стороны, в хранилище накапливается,
как правило, очень большой объем данных, а с другой, — аналитиков в большинстве случаев интересуют не
детальные, а обобщенные показатели. И если каждый раз для вычисления суммы продаж за год пришлось бы
суммировать миллионы индивидуальных продаж, скорость, скорее всего, была бы неприемлемой. Поэтому при
загрузке данных в многомерную БД вычисляются и сохраняются все суммарные показатели или их часть.
53
54.
3. Внутримашинное информационное обеспечениеВ связи с этим, за скорость обработки запросов к суммарным данным приходится платить увеличением
объемов данных и времени на их загрузку. Причем увеличение объема может стать гигантским. Степень
увеличения данных при вычислении агрегатов зависит от количества измерений куба и структуры этих
измерений. Для решения проблемы хранения агрегатов применяются сложные схемы, позволяющие при
вычислении далеко не всех возможных агрегатов достигать значительного повышения производительности
выполнения запросов.
Как детальные данные, так и агрегаты могут храниться либо в реляционных, либо в многомерных
структурах. Многомерное хранение позволяет обращаться с данными как с многомерным массивом, благодаря
чему обеспечиваются одинаково быстрые вычисления суммарных показателей и различные многомерные
преобразования по любому из измерений. Некоторое время назад OLAP-продукты поддерживали либо
реляционное, либо многомерное хранение. Сегодня, как правило, один и тот же продукт обеспечивает оба этих
вида хранения, а также третий вид — смешанный.
54
55.
ПЕРВЫЙ ВУЗКОРПОРАЦИЙ
www.tyuiu.ru