340.83K
Category: informaticsinformatics

Сжатие данных

1.

08.12.2022
Сжатие данных

2.

Сжатие данных
Архивация – это сжатие файла или группы файлов с
целью уменьшить их размер.
Разархивация – извлечение файлов из архива
Архив – это файл, содержащий в себе один или несколько
файлов в сжатом виде.
Цель архивации - уменьшение объёма файла для
долгосрочного хранения или передачи по сети.
Архиватор – это программа, позволяющая за счёт
применения специальных методов сжатия информации
создавать копии файлов меньшего размера, объединять
копии нескольких файлов в один архивный файл, из которого
можно извлечь файлы в их первоначальном виде.

3.

Распространенные архиваторы
7-Zip
WinZip
WinRar

4.

Различие архиваторов
Создано множество различных архиваторов, они
отличаются форматом архивных файлов, скоростью работы,
степенью сжатия файлов, удобством использования.
Наиболее распространенные программы-архиваторы имеют
приблизительно одинаковые возможности и ни одна из них не
превосходит другие по всем параметрам: одни программы
работают быстрее, другие обеспечивают лучшую степень
сжатия файлов. Даже если сравнивать программы только по
степени сжатия, то среди них нет лидера: разные файлы лучше
сжимаются разными программами.
Имена файлов архивов могут иметь расширения .zip, rar, и
др. в зависимости от типа архиватора.

5.

Формат ZIP
Основное преимущество
формата
ZIP

его
популярность.
Так,
большинство
архивов
в
Интернете имеют формат
ZIP. Если вы хотите кому-то
отправить архив, но не
уверены, что у адресата есть
программа WinRAR для
распаковки архива, то имеет
смысл использовать формат
ZIP.

6.

Формат WinRAR
Это файловый архиватор для
Windows с высокой степенью
сжатия, является одним из лучших
архиваторов по соотношению
степени сжатия к скорости работы.
Распространяется по sharewareлицензии. Разработан российским
программистом Евгением
Рошалем.
WinRAR позволяет работать с
ZIP-архивами, но основным
форматом для нее является RAR.

7.

Степень сжатия
Она зависит от:
Типа исходного файла
Метода сжатия
Используемого архиватора

8.

Принцип работы архиваторов
Основан на поиске в файле избыточной информации и последующем ее
кодировании с целью получения минимального объема.
Редакторы кодируют информацию наиболее естественным, но не самым
экономичным способом.
Если посмотреть на текст, то можно заметить, что такие буквы «а» и «о»,
встречаются в нем гораздо чаще чем «ю» и «у». То же самое можно отнести и к
сочетаниям букв.
На рисунках цвета соседних точек в большинстве случаев близки по оттенку.
Подобно этому в любой последовательности информации некоторые сочетания
встречаются намного чаще других.
Все это приводит к тому, что в файлах, хранящих эту информацию, некоторые
комбинации из 0 и 1 встречаются гораздо чаще, чем другие. В таких случаях говорят,
что информация обладает избыточностью, и есть возможность перекодировать
содержание файла, уменьшив его размер.
Для сжатия достаточно придерживаться правила: чем чаще встречается
комбинация, тем более коротким сочетанием 0 и 1 её можно перекодировать. Это и
делает архиватор.
Если повторить процедуру сжатия, то эффекта не будет, так как избыточность
информации устраняется при первом сжатии.

9.

Основные алгоритмы сжатия
Алгоритм RLE
Алгоритм Хафмана
Алгоритм KWE

10.

Алгоритм RLE
использует
принцип
выявления
повторяющихся
последовательностей и замены их простой структурой, в
которой указывается код данных и коэффициент повтора.
При сжатии записывается последовательность из двух
повторяющихся величин: повторяемого значения и количества
его повторений.
Пример
Исходная последовательность: 3, 3, 12, 12, 12, 0, 0, 0, 0.
Сжатая информация: 3, 2, 12, 3, 0, 4.
Коэффициент сжатия: 6/9*100% = 67%.

11.

Алгоритм Хафмана
предполагает кодирование не байтами, а битовыми
группами. В нем можно выделить 3 основные этапа:
1. Выявляется
частота
повторения
каждого
из
встречающихся символов.
2. Чем чаще встречается символ, тем меньшим количеством
битов он кодируется.
3. К закодированной последовательности прикладывается
таблица соответствия.
Например, в любом английском тексте буква E
встречается чаще, чем Z, X и Q. Таким образом, используя
специальную таблицу соответствия, можно закодировать
каждую букву Е меньшим числом бит и использовать более
длинный код для более редких букв.

12.

Алгоритм KWE
предполагает использование словаря, в котором
каждому слову соответствует двухбайтовый код.
Эффективность сжатия увеличивается с ростом
объёма кодируемого текста.

13.

Зависимость коэффициента сжатия от
типа файла
Размер чёрно-белого изображения чертёжного качества
уменьшается в сотню раз,
цветные рисунки в 5-10 раз,
текстовые файлы (.txt, .doc) – 2-3 раза,
исполняемые файлы (.EXE) - сильно колеблется, в среднем в
3 раза.
звук (.wav, .au) на 20-40%.
видео и фото практически не сжимается.

14.

Защита информации в архиве
Архиватор позволяет установить пароль на
просмотр информации в архиве.
Но если пароль забудете, восстановить его
невозможно

15.

Самораспаковывающиеся архивы
Программа
WinRAR
также
может
создавать
самораспаковывающиеся архивы. Самораспаковывающийся
(SFX, от англ. SelF-eXtracting) архив — это архив, к которому
присоединен исполняемый модуль. Этот модуль позволяет
извлекать файлы простым запуском архива как обычной
программы. Таким образом, для извлечения содержимого
SFX-архива не требуется дополнительных внешних
программ.
SFX-архивы, как и любые другие исполняемые файлы,
обычно имеют расширение .EXE. SFX-архивы удобны в тех
случаях, когда нужно передать кому-то архив, но вы не
уверены, что у адресата есть соответствующий архиватор для
его распаковки.

16.

Запишите в тетрадь
Самораспаковывающийся архив — это
исполняемая программа (имеет расширение
ехе), которая включает в себя архив и
программу для его распаковки. Он
используется, когда неизвестно, есть ли
соответствующая программа архивации на
компьютере, на котором предстоит распаковка.
Многотомные архивы состоят из
нескольких частей — томов. Используются для
сохранения большого архива на нескольких
носителях.
English     Русский Rules