7.40M
Category: databasedatabase

Файловая концепция хранения информации. Лекция 2

1.

1
Файловая концепция хранения
информации
Курс «Базы данных», лекция 2
Лекции

2.

Базы данных
2
Способы хранения данных
Файловый
Блочный
Объектный
Метаданные
Объекты со
связями между
ними
Лекции

3.

Базы данных
Носители информации
Лекции
3

4.

Базы данных
Способы адресации
CHS (cylinder-head-sector)
Сектор адресуется по его физическому положению на диске 3-я координатами —
номером цилиндра, номером головки и номером сектора.
LBA (linear block addressing)
адрес блоков данных на носителе задаётся с помощью логического линейного
адреса.
LBA = [ (Cylinder * no of heads + heads) * sectors/track ] + (Sector-1)
Лекции
4

5.

Базы данных
Файловая система
Файловая система (ФС) - это часть операционной системы, назначение которой состоит в
том, чтобы организовать эффективную работу с данными, хранящимися во внешней памяти,
и обеспечить пользователю удобный интерфейс при работе с такими данными.
Файл — это именованная область внешней памяти, в которую можно записывать и из
которой можно считывать данные.
Файловая система включает:
● совокупность всех файлов на диске;
● структуры данных, используемые для управления файлами - каталоги файлов, дескрипторы
файлов, таблицы распределения свободного и занятого пространства на диске;
● комплекс системных программных средств, реализующих операции c файлами - создание,
уничтожение, чтение, запись, именование и поиск.
Лекции
5

6.

Базы данных
Методы размещения файлов
Непрерывное размещение
Лекции
6

7.

Базы данных
7
Методы размещения файлов
Цепочное размещение
Таблица размещения
файлов
Лекции
Имя
файла
Нач. блок
File A
2
File B
9
File C
18
File D
30
File E
26
Структура блока
Данные Номер
следующего
блока

8.

Базы данных
Методы размещения файлов
Индексированное размещение
Лекции
8

9.

Базы данных
9
Структура файловой системы
Каталоги образуют дерево, если файлу разрешено входить
только в один каталог (б).
Каталоги образуют сеть, если файл может входить сразу в
несколько каталогов (в).
Лекции

10.

Базы данных
Структура файловой системы
Атрибуты файлов
● тип файла (обычный файл, каталог, специальный файл и т. п.);
● владелец файла;
● создатель файла;
● пароль для доступа к файлу;
● информация о разрешенных операциях доступа к файлу;
● времена создания, последнего доступа и последнего изменения;
● текущий размер файла;
● максимальный размер файла;
● признаки: «скрытый файл», «системный файл», «архивный файл», «двоичный/символьный»,
«временный», «заблокированный»;
Лекции
10

11.

Базы данных
Группы стандартов файловых систем
● Для жёстких дисков: FAT32, HPFS, NTFS, ext2 и др.
● Для носителей с последовательным доступом (например,
магнитные ленты): QIC и др.
● Для оптических носителей — CD и DVD: ISO9660, HFS, UDF и
др.
● Сетевые файловые системы: NFS, CIFS, SSHFS, GmailFS и
др.
● Для флэш-памяти: YAFFS, ExtremeFFS, exFAT.
Лекции
11

12.

Базы данных
Асинхронная запись
Доступ к дискам в разы медленнее, чем доступ к оперативной памяти, для прироста
производительности во многих файловых системах применяется асинхронная запись
изменений на диск. Для этого применяется либо журналирование, например в ext3, ReiserFS,
JFS, NTFS, XFS, либо механизм soft updates и др.
Лекции
12

13.

Базы данных
FAT
File Allocation Table
Разработана Биллом Гейтсом и Марком мак Дональдом в 1976—1977 годах. Использовалась
в качестве основной файловой системы в операционных системах семейств DOS и Windows
(до версии Windows 2000).
Метод размещения данных – цепочное размещение.
Характеристики FAT
● Низкая устойчивость с мягким сбоям;
● "Потерянные кластеры";
● Поддерживается большинством устройств;
● Отсутствуют механизмы разграничения доступа;
● Максимальный размер файла = 2Гб / 4Гб;
● Максимальный размер тома = 4Гб / 2Тб.
Лекции
13

14.

Базы данных
FAT
Недостатки FAT32:
•размер тома при использовании FAT32 ограничен 4 Тбайт;
•тома FAT32 недоступны из других операционных систем ;
•не поддерживается резервная копия загрузочного сектора;
•в FAT32 не поддерживается встроенная защита файлов и их сжатие.
Лекции
14

15.

Базы данных
NTFS
New Technology File System
Впервые представлена в 1993 в Windows 3.1. Разработана на основе HPFS (High
Performance File System, которая создавалась IBM совместно с Microsoft).
OS/2 — HPFS
NTFS — Windows NT, Windows XP …
В других ОС представлена в виде дополнительных драйверов:
Linux(чтение, чтение/запись), Mac OS (чтение, чтение/запись в последних версиях)
Лекции
15

16.

Базы данных
NTFS
Достоинства NTFS:
• возможность восстановления. В случае системного сбоя NTFS использует дополнительную информацию для
автоматического восстановления целостности файловой системы;
• сжатие информации. Cжатые файлы могут использоваться Windows-приложениями без предварительной
распаковки;
• скорость доступа выше, чем у FAT. NTFS минимизирует число обращений к диску, требуемых для
нахождения файла;
• защита файлов и каталогов. На томах NTFS возможно задание атрибутов доступа к файлам и папкам;
• поддержка резервной копим загрузочного сектора; она располагается в конце тома;
• поддержка системы шифрования Encrypted File System (EFS);
• позволяет «на лету» определять дефектные кластеры и отводить новые кластеры для файловых операций
Лекции
16

17.

Базы данных
NTFS
Характеристики NTFS
Лекции
Высокая устойчивость к мягким сбоям;
Поддерживается не всеми ОС, устройствами;
Максимальный размер файла = 244(практика), 264(теория);
Максимальный размер тома = 9.4 зеттабайт;
Максимальный размер диска = (16 эксабайт, ~16тыс.Тб);
Поддерживает жёсткие ссылки и символьные ссылки;
Есть средства разграничения доступа / шифрования;
Журналирование;
Сжатие.
17

18.

Базы данных
Ext3, Ext4
Third Extended File System (третья версия расширенной файловой системы), сокращённо
ext3 или ext3fs - журналируемая файловая система, используемая в операционных системах
на ядре Linux, является файловой системой по умолчанию во многих дистрибутивах.
Характеристики Ext3
• Журналируемая.
• Индексируемое размещение файлов.
• Максимальный размер файла = 16Гб / 2Тб.
• Максимальный размер тома = 2Тб / 32Тб.
• Основное использование в Linux.
Характеристики Ext4
• Дефрагментация без размонтирования;
• Максимальный размер файла = 16 Тб;
• Максимальный размер диска = 1 эксабайт.
Лекции
18

19.

Базы данных
Ext3, Ext4
Достоинства Ext4:
• Журналирование –в случае сбоев возможно восстановить структуру файловой системы;
• Поддержка шифрования –шифрование без потери производительности;
• Высокая стабильность – файловая система Ext4 может сама контролировать своё состояние.
• Поддержка по умолчанию во многих дистрибутивах, используется в картах памяти смартфонов
на Android;
• Низкий уровень фрагментации – выполняется оптимизация при размещении файлов;
• Возможность хранить большое количество коротких файлов;
Недостатки Ext4:
1.Отсутствие проверки контрольных сумм для данных – из-за этого невозможно
обнаружить повреждение данных при аппаратных сбоях;
2.Плохая масштабируемость –при создании разделов размером больше 100 Терабайт очень
сильно падает производительность;
3.Отсутствие поддержки прозрачного сжатия и прозрачного шифрования.
Лекции
19

20.

Базы данных
Имена файлов
Имена файлов делятся на:
• простые;
• составные;
• полные;
• относительные
Простое имя состоит из строки символов.
Составное имя состоит из двух строк символов, разделённых точкой.
Полное имя состоит из имени файла (простого или составного) и списка всех каталогов,
начиная от корневого.
Относительное имя состоит из имени файла (простого или составного) и списка всех
каталогов, начиная с текущего.
Лекции
20

21.

Базы данных
Защита файлов
Права пользователей и групп
Каждый пользователь имеет идентификатор и принадлежит к одной из групп пользователей.
Пользователь, создавший файл имеет к нему полный доступ: чтение, запись.
Права членов группы по отношению к файлу задаются политикой группы.
Права «прочих» пользователей задаются общей политикой ОС.
Пользователи, имеющие право на изменение файла могут настроить индивидуальные права
доступа.
Лекции
21

22.

Базы данных
22
Многопользовательский доступ
Пользователь 1
Пользователь 2
Результат
Чтение
Чтение
Совместный доступ
Чтение
Запись
Запись
Запись
Запрос пользователя 2
блокируется до
завершения работы
Пользователя 1 или
доступ к файлу
осуществляется в
режиме синхронизации
Синхронизация файлов при совместной работе осуществляется вне файловой системы.
Лекции

23.

Базы данных
23
Пример реализации информационной системы с использованием
файловой системы
Система должна выполнять следующие действия:
• выдавать списки сотрудников по отделам;
• поддерживать возможность перевода сотрудника из одного отдела в другой;
• поддерживать прием на работу новых сотрудников и увольнение работающих;
• выдавать имена руководителей отделов;
• выдавать данные о численности отделов;
• выдавать данных о сумме выплаченной в последний раз зарплаты (для всего отдела);
• выдавать номер удостоверения по полному имени сотрудника;
• выдавать полное имя сотрудника по номеру удостоверения;
• выдавать информацию о текущем соответствии занимаемой должности сотрудника;
• выдавать информацию о размере зарплаты сотрудника.
Решение с использованием одного файла
СОТР_ИМЯ
Лекции
СОТР_НОМЕР
СОТР_АТТЕСТ СОТР_ЗАРПЛ СОТР_ОТД_НОМ
СОТР_ОТД_РУК

24.

Базы данных
Пример реализации информационной системы с использованием
файловой системы
Внешняя библиотека функций должна обеспечивать:
• отсутствие дублирующих значений в полях СОТР_НОМ и СОТР_ИМЯ;
• выбор записей по полям СОТР_НОМ и СОТР_ИМЯ;
• выбор всех записей с одинаковым значением поля СОТР_ОТД_НОМ и вычисление
количества записей и суммы зарплаты;
Недостатки
1) необходимость реализации внешней библиотеки функций;
2) дублирование информации (имя начальника отдела):
3) для выполнения большинства запросов придётся последовательно просматривать
все записи.
Лекции
24

25.

Базы данных
25
Пример реализации информационной системы с использованием
файловой системы
Решение с использованием двух файлов
Таблица ОТДЕЛЫ
СОТР_ИМЯ
СОТР_НОМЕР
СОТР_АТТЕСТ СОТР_ЗАРПЛ ОТД_НОМ
Таблица СОТРУДНИКИ
ОТД_НОМ
ОТД_РУК
ОТД_ЗАРПЛ
ОТД_РАЗМЕР
Анализ изменений
1) Недостатки 2, 3 исключены.
2) Сложность внешней библиотеки функций существенно возросла из-за необходимости
учитывать связи между таблицами.
Появилась необходимость хранения метаданных!
Появились характерные черты базы данных.
Лекции

26.

Базы данных
Недостатки реализации ИС с использованием файловой системы
Разделение и изоляция данных. Поскольку данные хранятся в разных файлах, то собрать
информацию из разных файлов достаточно сложно, приходится создавать некоторый
временный файл, в который собирается вся необходимая информация.
Дублирование данных. Дублирование данных сопровождается неэкономичным
расходованием ресурсов (как с точки зрения памяти компьютера, так и с точки зрения
человека - оператора, который тратит больше времени на ввод данных).
Зависимость от данных. Изменение в структуре файлов привод к изменению библиотеки
обслуживающих функций.
Несовместимость форматов файлов. Две одинаковые по структуре файлов ИС,
использующие различные файловые системы будут несовместимы на уровне библиотеки
обслуживающих функций.
Фиксированные запросы/быстрое увеличение библиотеки функций. С усложнением
структуры данных возрастает количество файлов в файловой системе. Многократно
возрастает сложность библиотеки функций с учётом того, что для выполнения каждого нового
запроса необходимо создавать новую функцию.
Лекции
26

27.

Базы данных
27
Сложность формирования запросов. Отсутствует язык запросов.
Нет защиты от мягких сбоев. Целостность данных не контролируется.
Отсутствует многопользовательский режим. Файловая система не обеспечивает
совместное использование файлов.
Аномалии данных : аномалия добавления новой записи, аномалия редактирования и
аномалия удаления.
Совокупность рассмотренных проблем приводит к
необходимости использования
СИСТЕМЫ УПРАВЛЕНИЯ БАЗОЙ ДАННЫХ
Лекции
English     Русский Rules