«Кодирование информации»
Спасибо за внимание
857.50K
Category: informaticsinformatics

Кодирование информации. Лабораторная №1

1. «Кодирование информации»

Лабораторная №1
Кафедра ИУ-8
1

2.

ПОНЯТИЕ КОДИРОВАНИЯ.
Кодирование текстовой информации (UTF-8,
CP1251)
Графической (bmp),
Звуковой (PCM).
2

3.

Язык – это знаковая форма представления информации.
3

4.

Код – это система условных знаков для представления
информации.
Кодирование – это операция преобразования символов или
группы символов одного кода в символы или группы
символов другого кода.
Основу любого языка составляет алфавит, синтаксис и
грамматика.
Алфавит – набор однозначно определенных знаков
(символов), из которых формируется сообщение. При
разговоре код передается звуками, при письме – буквами.
Одну и ту же информацию можно представить с помощью
различных кодов. Например посредством русских букв,
или специальных значков.
Синтаксис – совокупность правил, согласно которым
образуются предложения языка.
Грамматика – совокупность правил правописания.
4

5.

В процессе обмена информацией кроме кодирования
информации происходит и ее декодирование.
5

6.

ЭВМ хранит и обрабатывает информацию в виде комбинации
электрических сигналов: напряжение 0.4В-0.6В соответствует
логическому нулю, а напряжение 2.4В-2.7В - логической единице.
Последовательности из 0 и 1 называются двоичными кодами, а
цифры 0 и 1 - битами (двоичными разрядами) (англ. bit – сокращение от
английских слов binary digit, что означает двоичная цифра).
Бит представляет наименьшую единицу информации.
Последовательностью битов можно закодировать текст, изображение,
звук или какую-либо другую информацию. Такой метод представления
информации называется двоичным кодированием (binary encoding).
Байт (англ. byte) – число из восьми бит (различные комбинации из
восьми нулей и единиц). Байт является единицей измерения
информации.
6

7.

Один бит позволяет закодировать
2 значения (0 или 1).
2 бита кодируют -->
4 разных значений (2^2 = 4),
3 бита кодируют -->
8 значений (2^3=8)
байт позволяет закодировать
? разных значений – символов
7

8.

2 основных стандарта кодирования текста
Юникод (Unicode) – стандарт кодирования символов,
позволяющий представить знаки практически
всех письменных языков.
Разновидность кодировки – UTF-8
ASCII (англ. American Standard Code for Information
Interchange) — американский стандартный код
для обмена информацией
Разновидность кодировки – Windows-1251
8

9.

ASCII
Первые 128 кодов (с 0 до 127) должны быть стандартными и
обязательными для всех стран и для всех компьютеров
КОДЫ ИЗ МЕЖДУНАРОДНОЙ ТАБЛИЦЫ ASCII:
0-31 – особые символы, которые не распечатываются на экране или на принтере,
а служат для выполнения специальных действий (например, для «перевода
каретки» – перехода текста на новую строку, или для «табуляции» – установки
курсора на специальные позиции в строке текста и т.п.).
32 – пробел (разделитель между словами – это тоже символ, подлежащий
кодировке, хоть он и отображается в виде «пустого места» между словами и
символами),
33-47 – специальные символы (круглые скобки и пр.) и знаки препинания (точка,
запятая и пр.),
48-57 – цифры от 0 до 9,
58-64 – математические символы (плюс (+), минус (-), умножить (*), разделить (/) и
пр.) и знаки препинания (двоеточие, точка с запятой и пр.),
65-90 – заглавные (прописные) английские буквы,
91-96 – специальные символы (квадратные скобки и пр.),
97-122 – маленькие (строчные) английские буквы,
123-127 – специальные символы (фигурные скобки и пр.).
9

10.

НАЦИОНАЛЬНЫЕ СТАНДАРТЫ кодировочных таблиц
включают:
международную часть кодовой таблицы без изменений ,
• а со второй половиной таблицы кодов (с 128 до 255)
каждая страна может делать все, что угодно, и
создавать в этой половине свой стандарт –
национальный.
В настоящее время существует 5 различных кодировок
кириллицы (КОИ8, Windows. MSDOS, Macintosh, ISO), что
вызывает определенные трудности при работе с
русскоязычными документами.
10

11.

Пользуясь показанной кодировкой, мы можем представить
себе, как компьютер кодирует и затем воспроизводит,
например, слово МИР (заглавными буквами).
Это слово представляется тремя кодами:
• букве М соответствует код 140 (по национальной российской
системе кодировки),
• И – это код 136 и
•Р – это 144.
Десятичной цифре 140 соответствует двоичное число 10001100.
Это можно проверить, если сделать следующие вычисления:
2^7 + 2^3 +2^2 = 140.
Степень, в которую возводится каждая «двойка» – это номер
позиции двоичного числа 10001100, в которой стоит «1», причем
позиции нумеруются справа налево, начиная с нулевого номера
позиции: 0, 1, 2 и т.д
11

12.

Десятичной цифре 140 соответствует двоичное число
10001100.
Это можно проверить, если сделать следующие вычисления:
2^7 + 2^3 +2^2 = 140. Степень, в которую возводится каждая
«двойка» – это номер позиции двоичного числа 10001100, в
которой стоит «1», причем позиции нумеруются справа
налево, начиная с нулевого номера позиции: 0, 1, 2 и т.д.
Аналогичным образом можно убедиться, что цифре 136
соответствует двоичное число 10001000 (проверка: 2^7 + 2^3
= 136).
А цифре 144 соответствует двоичное число 10010000
(проверка: 2^7 + 2^4 = 144).
Таким образом, в компьютере слово МИР будет храниться в
виде следующей последовательности нулей и единиц (бит):
10001100 10001000 10010000.
12

13.

Unicode
Стандарт предложен в 1991 году некоммерческой организацией
«Консорциум Юникода» (англ. Unicode Consortium, Unicode Inc.).[4][5]
Применение этого стандарта позволяет закодировать очень большое
число символов из разных письменностей: в документах Unicode могут
соседствовать китайские иероглифы, математические символы, буквы
греческого алфавита, латиницы и кириллицы.
Первая версия Юникода представляла собой кодировку с
фиксированным размером символа в 16 бит, то есть общее число
кодов было 2^16 (65 536).
Коды в стандарте Юникод разделены на несколько областей.
Область с кодами от U+0000 до U+007F содержит символы набора
ASCII с соответствующими кодами. Далее расположены области
знаков различных письменностей, знаки пунктуации и технические
символы. Часть кодов зарезервирована для использования в
будущем. Под символы кириллицы выделены области знаков с
кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до
U+A69F.
13

14.

Кодирование изображений
- Векторная графика
изображение, представляющее собой сетку пикселей или цветных точек
(обычно прямоугольную) на компьютерном мониторе, бумаге и других
отображающих устройствах и материалах (растр).
- Растровая графика
способ представления объектов и изображений в компьютерной
графике, основанный на использовании геометрических примитивов,
таких как точки, линии, сплайны и многоугольники.
Пример, показывающий
разницу между векторной и
растровой графикой при
увеличении (в 8 раз).
14

15.

Растровая графика
Достоинства
•Растровая графика позволяет создать (воспроизвести) практически
любой рисунок, вне зависимости от сложности, в отличие, например, от
векторной, где невозможно точно передать эффект перехода от одного
цвета к другому без потерь в размере файла.
•Распространённость — растровая графика используется сейчас
практически везде: от маленьких значков до плакатов.
•Высокая скорость обработки сложных изображений, если не нужно
масштабирование.
•Растровое представление изображения естественно для большинства
устройств ввода-вывода графической информации, таких как мониторы
(за исключением векторных), матричные и струйные принтеры,
цифровые фотоаппараты, сканеры.
Недостатки
•Большой размер файлов с простыми изображениями.
•Невозможность идеального масштабирования.
•Невозможность вывода на печать на плоттер.
15

16.

Векторная графика
Преимущества
•Размер, занимаемой описательной частью, не зависит от реальной величины
объекта, что позволяет, используя минимальное количество информации, описать
сколько угодно большой объект файлом минимального размера.
•Можно бесконечно увеличить графический примитив, например, дугу окружности,
и она останется гладкой. С другой стороны, если кривая представлена в виде
ломаной линии, увеличение покажет, что она на самом деле не кривая.
•Параметры объектов хранятся и могут быть легко изменены. Также это означает
что перемещение, масштабирование, вращение, заполнение и т. д. не ухудшат
качества рисунка.
•При увеличении или уменьшении объектов толщина линий может быть задана
постоянной величиной, независимо от реального контура.
Недостатки
•Не каждый объект может быть легко изображен в векторном виде — для
подобного оригинальному изображению может потребоваться очень большое
количество объектов и их сложности, что негативно влияет на количество памяти,
занимаемой изображением, и на время для его отображения (отрисовки).
•Перевод векторной графики в растр достаточно прост. Но обратного пути, как
правило, нет — трассировка растра, при том что требует значительных
вычислительных мощностей и времени, не всегда обеспечивает высокое качества
векторного рисунка.
16

17.

BMP
BMP (от англ. Bitmap Picture) — формат хранения растровых
изображений.
Глубина цвета в данном формате может быть 1, 2, 4, 8, 16, 24, 32, 48 бит на
пиксел, максимальные размеры изображения 65535×65535 пикселов. Однако,
глубина 2 бит официально не поддерживается.
Обзор структуры файла
BMP-файл состоит из четырёх частей:
•Заголовок файла (BITMAPFILEHEADER)
•Заголовок изображения (BITMAPINFOHEADER, может отсутствовать).
BITMAPV4HEADER (Win95, NT4.0) BITMAPV5HEADER (Win98/Me, 2000/XP)
•Палитра (может отсутствовать)
•Само изображение
Данные изображения
Последовательность пикселов, записанных в том или ином виде. Пикселы
хранятся построчно, снизу вверх. Каждая строка изображения дополняется
нулями до длины, кратной четырём байтам.
В bmp файлах с глубиной цвета 24 бита, байты цвета каждого пиксела хранятся
в порядке BGR (Blue,Green,Red)
B bmp файлах с глубиной цвета 32 бита, байты цвета каждого пиксела хранятся
в порядке BGRA (Blue,Green,Red,Alpha)
17

18.

Битность изображения
В зависимости от количества представляемых цветов, на каждую точку отводится от
1 до 48 битов:
1 бит — монохромное изображение (два цвета).
2 бита — 4 возможных цвета (режимы работы CGA) (2-битовый режим официально
не стандартизован, но использутся).
4 бита — 16-цветное изображение (режимы работы EGA).
8 бит (1 байт) — 256 цветов, последний из режимов, поддерживавших
индексированные цвета (см. ниже).
16 бит (2 байта) — режим HiColor, 65536 возможных оттенков.
24 бита (3 байта) — TrueColor. В связи с тем, что 3 байта не очень хорошо
соотносятся с степенями двойки (особенно при хранении данных в памяти, где
выравнивание данных по границе слова имеет значение), вместо него часто
используют 32-битное изображение. В режиме TrueColor на каждый из трёх каналов
(в режиме RGB) отводится по 1 байту (256 возможных значений), общее количество
цветов равно 16777216.
32 бита (4 байта) — этот режим практически аналогичен TrueColor, четвёртый байт
обычно не используется, или в нём располагается альфа-канал (прозрачность).
48 бит (6 байт) — редко используемый формат с повышенной точностью передачи
цвета, поддерживается относительно малым количеством программ и
оборудования.

19.

RGB
RGB (аббревиатура английских слов Red, Green, Blue — красный, зелёный,
синий) — аддитивная цветовая модель, как правило, описывающая способ
синтеза цвета для цветовоспроизведения.
Выбор основных цветов обусловлен особенностями физиологии восприятия цвета
сетчаткой человеческого глаза. Цветовая модель RGB нашла широкое применение
в технике.
Аддитивной она называется потому, что цвета получаются путём добавления
(англ. addition) к черному. Иначе говоря, если цвет экрана, освещённого цветным
прожектором, обозначается в RGB как (r1, g1, b1), а цвет того же экрана,
освещенного другим прожектором, — (r2, g2, b2), то при освещении двумя
прожекторами цвет экрана будет обозначаться как (r1+r2, g1+g2, b1+b2).
Изображение в данной цветовой модели состоит из трёх каналов. При смешении
основных цветов (основными цветами считаются красный, зелёный и синий) —
например, синего (B) и красного (R), мы получаем пурпурный (M magenta), при
смешении зеленого (G) и красного (R) — жёлтый (Y yellow), при смешении
зеленого (G) и синего (B) — циановый (С cyan). При смешении всех трёх цветовых
компонентов мы получаем белый цвет (W).

20.

Кодирование звуковой информации. PCM
Импульсно-кодовая модуляция (ИКМ, англ. Pulse Code Modulation, PCM)
используется для оцифровки аналоговых сигналов. Практически все виды
аналоговых данных (видео, голос, музыка, данные телеметрии, виртуальные
миры) допускают применение ИКМ.
Модуляция
Чтобы получить на входе канала связи
(передающий конец) ИКМ-сигнал из аналогового,
мгновенное значение аналогового сигнала
измеряется через равные промежутки времени.
Количество оцифрованных значений в секунду
(или скорость оцифровки, частота
дискретизации) должно быть не ниже 2-кратной
максимальной частоты в спектре аналогового
сигнала (по теореме Котельникова). Мгновенное
измеренное значение аналогового сигнала
округляется до ближайшего уровня из нескольких
заранее определённых значений. Этот процесс
называется квантованием, а количество уровней
всегда берётся кратным степени двойки,
например, 8, 16, 32 или 64. Номер уровня может
быть соответственно представлен 3, 4, 5 или 6
битами. Таким образом, на выходе модулятора
получается набор битов (0 и 1).

21.

Качество оцифрованного звука.
Чем больше частота и глубина дискретизации звука, тем более
качественным будет звучание оцифрованного звука. Самое низкое
качество оцифрованного звука, соответствующее качеству телефонной
связи, получается при частоте дискретизации 8000 раз в секунду,
глубине дискретизации 8 битов и записи одной звуковой дорожки
(режим "моно"). Самое высокое качество оцифрованного звука,
соответствующее качеству аудио-CD, достигается при частоте
дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и
записи двух звуковых дорожек (режим "стерео").
Необходимо помнить, что чем выше качество цифрового звука, тем
больше информационный объем звукового файла. Можно оценить
информационный объем цифрового стереозвукового файла
длительностью звучания 1 секунда при среднем качестве звука (16
битов, 24 000 измерений в секунду). Для этого глубину кодирования
необходимо умножить на количество измерений в 1 секунду й умножить
на 2 (стереозвук):
16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

22. Спасибо за внимание

22
English     Русский Rules