400.84K
Category: databasedatabase

Базовые типы информационных систем (лекция № 2)

1.

Базовые типы
информационных систем

2.

Классификация АИС является чрезмерно детальной с
точки зрения наиболее распространенных и перспективных
типов, к которым относятся (табл.1):
• фактографические;
• документальные;
• интеллектуальные (экспертные);
• гипертекстовые.
Выбор именно этих типов АИС для более детального
анализа определяется следующими факторами:
• системы появлялись и развивались именно в данной
исторической последовательности;
• более ранние типы систем (фактографические,
документальные) являются, как правило, платформой и средой
для реализации более поздних (экспертные, гипертекстовые).
Перечисленные типы характеризуют следующие отличительные
черты:

3.

• распространенность

статистике
мировых
информационных
ресурсов
документальные
и
фактографические БД занимают 1- и 2- е места;
• перспективность (интеллектуальные системы успешно
осваивают новые области применения);
• гипертекстовые системы являются основой мировой
информационной сети WWW (Word Wide Web) —наиболее
популярной составляющей Интернета.
При этом хотелось бы отметить, что в традиционном
понимании выражение «информационная система» (особенно
«автоматизированная
информационная система»
или
«автоматизированная информационно - поисковая система» —
АИПС) обычно ассоциируется с документальными системами
(базами данных);
термин же «база данных», как правило, ассоциируется
с фактографическими, управленческими системами, задачами
типа АСУ. Хотя, конечно же, и те и другие типы систем являются

4.

информационными и включают базы данных в свой состав.
В этой традиционной интерпретации находит свое отражение
то обстоятельство, что в фактографических системах модель
предметной области заключена в структуре БД, и потому
основное
внимание
сосредоточивается
на
проблеме
проектирования БД, в документальных же системах моделью
является наполнение, содержание БД, в том числе словарей,
тезаурусов и т. д., поэтому основное внимание уделяется
языковым, семантическим проблемам. (Эти и другие различия
указанных типов систем описываются в табл. 1.).

5.

Таблица 1.
Атрибуты
систем
Типы систем
Фактографичес Документальн Интеллектуаль Гипертекстовые
кие
ые
ные
Структура БД
Содержание БД Структура и
Структура и
(логическая и (структура
содержание БД содержание БЗ
физическая)
стандартная)
(БЗ)
(ГБ)
Модель
(структура)
предметной
области
Информацион Базы данных
ная
(иногда
совокупность файловая
система ОС)
Единица
Загрузка БД
информации
База данных
База знаний
Сеть связей
(гипербаза –
ГБ)
Загрузка БД
Подсистема
приобретения
знаний
(Knowledge
acquisition)
Загрузка
файлов или БД
или БЗ

6.

Типы систем
Фактографичес Документальн Интеллектуаль
кие
ые
ные
Вывод
Пользовательск Пользовательск Интерфейс
информации ий интерфейс ий интерфейс пользователя,
(входной язык) (язык запросов) (информацион подсистема
но-поисковый разъяснения
язык)
результатов
(explaining
subsystem)
Обработка,
ОС или СУБД
СУБД или
СУБД или
поиск
программная программная
информации
оболочка – АИ оболочка ЭС
ПС
(машина
логического
вывода
nference
engine)
Атрибуты
систем
Гипертекстовые
Навигатор сети
Гипермедиа
машина
навигации

7.

Типы систем
Фактографичес Документальн Интеллектуаль
кие
ые
ные
Программные Табличные
Программные Оболочки ЭС
средства
СУБД и
оболочки
(Shells - E
реализации
системы
АИПС
MYCIN,
программиров DPS, STAIRS,
EXPERT, OPS,
ания с
ISIS, IRBIS
HEARSAY,
элементами
EXSYS, Insight,
СУБД – ADABAS,
ExpertEase
Foxpro, Oracle,
MS SQL SERVER
Атрибуты
систем
Гипертекстовые
NoteCards,
Tektronix,
Neptune,
Гип-Си,
ГиперМетод,
ГИПЕРНЕТ,
Мета Дизайн,
АСАД

8.

Основные признаки — простая структур, а данных и
сложная система взаимосвязей между агрегатами данных.
В исторической последовательности развития данных
систем
сначала появились АИС, базирующиеся на
иерархических, затем на сетевых и, наконец, на реляционных и
постреляционных представлениях о структуре предметной
области. В настоящее время наиболее распространенным
подходом
является реляционный (табличные БД), что не
исключает, конечно, включения элементов иерархических и
сетевых представлений при проектировании АИС.
Модели данных и структура БД
Поскольку
в
данном
случае
БД
является
информационной
моделью определенной
предметной
области, существенной особенностью всякой БД является
структура или, как принято говорить, модель данных (МД).

9.

Рассмотрим некоторые наиболее известные модели
данных.
Иерархическая МД (ИМД). Впервые реализована в СУБД
IBM – IMS (Information Management System ), разработанной для
поддержки банка данных по программе Apollo. При данном
подходе
предметная
область
представляется
в виде
совокупности структур иерархического типа (граф — «дерево»).
Основные понятия ИМД:
• поле — минимальная единица данных;
• сегмент (узел) — совокупность полей, являющаяся
единицей обмена между БД и прикладной программой.
Сегмент (узел иерархического графа) более высокого уровня
называется исходным (родительским) по отношению к ниже
расположенному
порожденному
(отпрыску).
Может
использоваться также терминология «узел, принадлежащий
вышестоящему узлу».
Конкретные данные, входящие в сегмент называются

10.

экземпляром сегмента.
В ИМД существуют также следующие понятия:
• брат — узел, имеющий того же родителя, что и другой
узел;
• ветвь — узел дерева вместе со всеми его
отпрысками,
отдаленными потомками и родительскими
источниками;
• лист — узел, у которого нет отпрысков;
• обход дерева — процесс обследования по очереди
каждого узла дерева в иерархической модели данных, и пр.
Преимущества IMS и реализованной в ней иерархической
модели:
1. Простота модели. Принцип построения IMS легок для
понимания.
Иерархия базы данных напоминает структуру компании
или генеалогическое дерево.

11.

2. Использование отношений предок/потомок. СУБД
IMS позволяла легко представлять отношения предок/потомок,
например: «А является частью В» или «А владеет В».
3.
Быстродействие.
В
СУБД
IMS
отношения
предок/потомок
были реализованы в виде физических
указателей от одной записи к другой, вследствие чего
перемещение по базе данных происходило быстро.
Поскольку структура данных в этой СУБД отличалась простотой,
IMS могла размещать записи предков и потомков на диске рядом
друг с другом, что позволяло свести к минимуму количество
операций записи-чтения.
Существенно то, что физическая организация БД в этом
случае такова, что выбрать конкретные сведения об объектах
можно, лишь пройдя всю цепочку групп (сегментов) сверху
вниз (путь на иерархическом дереве). Данная схема наиболее
проста, но не лишена очевидных недостатков.
В частности, в связи с полииерархичностью связей

12.

объектов в реальном мире в подобных БД необходимо
создавать
и
поддерживать
несколько
иерархических
отношений, что нарушает основную идею модели данных.
Далее, рассматриваемая модель обладает рядом т. н.
«парадоксов», наиболее очевидным из которых является
«парадокс исключения». Удаление из БД некоторого
вышестоящего сегмента приводит к автоматическому удалению и
всех зависимых (порожденных сегментов).
Сетевая модель данных (модель CODASYL).
В
предложенной CODASYL модификации иерархической модели
одна запись могла участвовать в нескольких отношениях
предок/потомок. В сетевой модели такие отношения
называются множествами (set). В 70 - е гг. независимые
производители
программного обеспечения реализовали
сетевую модель в таких продуктах, как IDMS компании Cullinet,
Total компании Cincom,
которые
приобрели
большую
популярность.

13.

Сетевые БД обладали рядом преимуществ:
1.
Гибкостью.
Множественные
отношения
предок/потомок позволяют сетевой БД хранить данные,
структура которых сложнее обычной иерархии.
2. Стандартизованностью. Появление стандарта CODASYL.
3. Быстродействием. Вопреки своей сложности, сетевые
БД достигали быстродействия, сравнимого с быстродействием
иерархических БД. Множества были представлены указателями
на физические записи данных, и в некоторых системах
администратор мог задать кластеризацию данных на основе
множества отношений.
Недостаток — жесткость БД, наборы отношений и
структуру записей приходилось задавать заранее. Изменение
структуры данных означало перестройку всей БД.
Реляционная модель данных (РМД). В то время как
иерархическая модель в своей основе является формализацией и
обобщением пользовательских свойств некоторой конкретной

14.

системы (IMS), в случае реляционной модели сначала были
разработаны некоторые математические основы и лишь через
5 – 10 лет появились первые коммерчески эффективные
системы. В рамках реляционной модели предметная область
представлена совокупностью таблиц (отношений, файлов).
Строки таблицы называются экземплярами отношения,
столбцы - атрибутами; каждый атрибут имеет область значений,
называемую доменом.
Важным отличием РМД от ИМД является возможность
применения формального
аппарата,
описывающего
преобразование и обработку данных в РМД - реляционной
алгебры.
Операндами реляционной алгебры являются отношения,
как постоянные, так и переменные.
Операции реляционной алгебры включают следующие
преобразования отношений.
Теоретико-множественные операции над несколькими

15.

подобными (имеющими одинаковую структуру - число
атрибутов, их имен, домен и т. д.), отношениями, в том числе
объединение, пересечение, разность.
Операции над одним отношением:
• селекция, или построение отношения - результата из
отношения - источника путем
отбора
экземпляров,
удовлетворяющих некоторому критерию отбора. Операция
селекции соответствует поиску информации в БД по
логическим условиям;
• проекция, или построение результирующего отношения
путем отбора части атрибутов всех экземпляров исходного
отношения. Данной операции в реальных СУБД соответствует
понятие пользовательской подсхемы и операции выдачи
необходимых данных.
Операции над несколькими различными отношениями.
Рассмотрим только естественное соединение (в
дальнейшем – соединение). Операция заключается в поиске в

16.

паре (или большем числе) отношений строк, содержащих общий
атрибут,
и
создания
из
этих
строк
экземпляра
результирующего отношения.
В СУБД соединению соответствует поиск связанных
данных или логическое (физическое) связывание файлов.
Реляционная алгебра позволяет рассматривать операции
ввода, вывода, поиска коррекции и удаления данных в БД как
вычисление отношений - результатов через исходные
отношения. При этом исходным отношением может быть
внешний (входной) формат данных, а результирующим внутренний (хранимый) или, наоборот, исходным - внутренний,
а результирующим - внешний (выходной).
Модель «сущность - связь» (Entity - Relationship, ER),
представляет собой обобщение РМД путем разделения
отношений, описывающих предметную область на две группы сущностей и связей.
Сущность (Entity) является первичным, устойчивым

17.

объектом, описываемым некоторой совокупностью атрибутов.
Связь (Relationship) является вторичным понятием,
характеризующим взаимодействие в пространстве и времени
двух или более сущностей, и также задается рядом атрибутов,
среди которых присутствуют идентификаторы взаимосвязанных
сущностей. При проектировании БД на основе ER - моделей
используют ER - диаграммы. Модель ER является удобным
средством описания предметной области перед тем, как перейти
к ее представлению в реляционной модели данных.
Иерархическая МД в настоящее время представляет
лишь исторический интерес, хотя ряд ее элементов и
поддерживается
некоторыми
из рассматриваемых далее
конкретными СУБД.
Наиболее распространенными являются подходы,
базирующиеся на ER - модели и РМД.
Основные представления о структуре БД в рамках
указанных моделей заключаются в следующем:

18.

а)
совокупность сущностей и связей образует
концептуальную схему базы данных и отражает структуру
предметной области. Элементами схемы являются типы (классы)
сущностей и связей; типы состоят из экземпляров,
описывающихся значениями атрибутов.
На рис. 2.1 приведен пример фрагмента диаграммы
«сущность - связь», описывающей учебный процесс вуза. Здесь
сущностями
являются
ФАКУЛЬТЕТ,
ДИСЦИПЛИНА,
СПЕЦИАЛЬНОСТЬ (с возможными атрибутами, например,
НАИМЕНОВАНИЕ, ПРОДОЛЖИТЕЛЬНОСТЬ ОБУЧЕНИЯ, ЧИСЛО
ЧАСОВ и пр.). Связями являются ВЫПУСКАЕТ, ВКЛЮЧАЕТ
(возможные атрибуты - КВАЛИФИКАЦИЯ, СЕМЕСТР ОБУЧЕНИЯ и
пр.);
б) концептуальная
схема
трансформируется
в
логическую схему, в которой сущностям и связям соответствуют
отношения или логические файлы, состоящие соответственно из
экземпляров отношений и логических записей.

19.

Логическая запись является более общим образом, чем
отношение (строка данных), поскольку допускает появление
групповых полей (или агрегатных данных), соответствующих
некоторым зависимым сущностям (или связям).
В повторяющемся групповом поле экземпляр группы
есть описание экземпляра сущности (связи) посредством
соответствующих атрибутов.
Групповые повторяющиеся поля представляют собой элемент
иерархической модели данных, который при желании может
применяться пользователями;
в) следующий уровень - физическая реализация БД в
форме файлов операционной системы ЭВМ. При этом в
различных конкретных системах логическому файлу может
отвечать один или более физических файлов (или наоборот);
физическая запись, как правило, включает одну или более
логических записей;

20.

г) уровень представлений пользователя описывает БД в
виде
совокупности пользовательских подсхем, которые
применяются
для
ввода/вывода
информации.
С
представлениями пользователя связаны также понятия маски
редактирования (преобразования данных при окончательном
представлении пользователю), и кодирования/декодирования
(трансляции кодов) - расширения кратких представлений
данных и аббревиатур с помощью вспомогательных файлов и

21.

кодовых таблиц (по своей сути - операция соединения
отношений в РМД).
Табличные базы данных
Рассмотрим пример БД, реализованной в рамках СУБД
(точнее, системы программирования) FoxPro и состоящей из
трех файлов данных (таблиц), описывающих некоторых
граждан, их автомобили и финансовые учреждения, с которыми
они связаны (рис. 2.2).

22.

Как уже отмечалось, подобные БД называются табличными или
реляционными (от relation - «отношение»), и их теория

23.

рассматривается во многих источниках.
Здесь мы ограничимся лишь базовыми понятиями:
• файл (file) соответствует совокупности однородных
объектов и < содержит их более или менее подробные описания
в зависимости от приложений.
Файл имеет имя (например, FINANCE. DBF и пр.);
• элементом файла является запись (record), или агрегат
разнотипных данных, описывающих объект (точнее, экземпляр
объекта). Записи имен не имеют, но им соответствуют
физические номера в файле (колонка # на рис. 2.2, а)
• элементом записи (здесь - неделимым) является поле данное, описывающее какой - либо аспект (или атрибут)
объекта. Поля имеют имена (PRSN#, SEX и пр.). Разные файлы
могут иметь поля с одинаковыми именами, но лучше этого
избегать.
• при представлении файла в виде таблицы (рис. 2.2,

24.

а) столбцам соответствуют атрибуты или поля, строкам объекты или записи. Иногда вводится понятие домена, или
совокупности допустимых значений атрибута (например, поле
SEX может иметь только два значения - «м», «ж», поле YEAR только четырехразрядные числа, начинающиеся с 19 - если в
БД речь идет о родившихся в XX в. и пр.);
• открытый (opened) файл - файл, доступный в данный
момент данному приложению. Открытие файла создает в
памяти буфер, в который с внешнего накопителя считываются
записи. В разные моменты времени могут быть открыты
различные множества файлов, количество открытых файлов
обычно стараются ограничить, чтобы не расходовать
оперативную память;
• активный или текущий (current, active) - тот из
открытых; файлов, который обрабатывается в данный момент
времени. Все операции над файлами (добавление записи,
удаление записи, редактирование записи) адресуются именно к

25.

активному файлу;
• активная или текущая запись – запись открытого файла
(рис. 2.3), доступная для обработки в данный момент
времени; (редактирование, ввод полей, корректировка,
удаление);
• указатель текущей записи - физический номер
доступной записи. Текущая запись находится в оперативной
памяти. При переходе к другой записи данного файла указатель
записи изменяется, и содержание оперативной памяти
замещается
содержимым
новой
текущей
записи.
Подразумевается, что если в командах или программах
фигурируют имена некоторых полей (в качестве аргументов
функций или выражений), то их значения соответствуют
содержанию текущей записи текущего файла;
• каждый файл и каждая запись могут в широких
пределах обрабатываться независимо друг от друга (за
исключением ситуаций проверки соответствия записей друг

26.

другу или целостности БД);
• навигация в БД - последовательность действий
приложения (программы или пользователя
в
процессе
диалога), при которой осуществляются изменения состояния
файлов и записей (открытых, текущих файлов, активных
записей). Изменение содержимого файлов при навигации не
обязательно. В процессе навигации просматривается или
редактируется содержимое БД.
Вид представления записей на экране может быть не
только табличным (отчет, запись в строке), но и картотечным
(форматированный экран, запись на экране).
В последнем случае каждая запись выводится в виде
определенной формы. Структура формы одинакова для всех
записей, причем название полей соответствует названиям
столбцов табличной формы представления базы данных, а их
расположение задается пользователем
English     Русский Rules