Similar presentations:
Кодирование и обработка текстовой информации
1. Кодирование и обработка текстовой информации.
2. Двоичное кодирование текстовой информации.
Текстовой информацией называетсяинформация ,выраженная с
помощью естественных и
формальных языков в письменной
форме.
3.
• Для представления текстовойинформации достаточно 256
различных знаков.
• Для кодирования каждого знака
требуется количество информации,
равное 8 битам, то есть длина
двоичного кода знака составляет
восемь двоичных знаков.
4.
• Каждому знаку необходимопоставить в соответствие
уникальный двоичный код из
интервала
от 00000000 до 11111111
( в десятичном коде от 0 до 255 )
5.
• При вводе двоичной информации вкомпьютер происходит её двоичное
кодирование, изображение знака
преобразуется в её двоичный код.
• Пользователь нажимает на
клавиатуре клавишу со знаком, и в
компьютер поступает определённая
последовательность из восьми
электрических импульсов (двоичный
код знака). Код хранится в
оперативной памяти, где занимает
одну ячейку.
6.
В процессе вывода на экранкомпьютера производится обратное
перекодирование, т. е.
преобразование двоичного кода знака
в его изображение.
7. Различные кодировки знаков.
Присваивание знаку конкретногодвоичного кода – это вопрос
соглашения, которое фиксируется в
кодовой таблице.
Одному и тому же двоичному коду в
различных кодировках поставлены в
соответствие различные символы.
8.
Двоичныйкод
Десятичный
код
00000000
0
КОИ-8
Windows
MS-DOS
Mac
ISO
. . .
00001000
8
Удаление последнего символа (клавиша {Backspace})
13
Перевод строки (клавиша {Enter})
00100000
32
Клавиша {Пробел}
00100001
33
!
. . .
00001101
. . .
. . .
01011010
Z
. . .
10000000
128
-
Ъ
А
А
к
194
б
В
-
-
Т
11001100
204
л
М
│
│
Ь
11011101
221
щ
Э
_
Ё
н
11111111
255
ь
я
Нераздел.
пробел
Нераздел.
пробел
п
. . .
11000010
. . .
9.
• с 0 до 32 – операции (перевод строки,ввод пробела и т. д.)
• с 33 по 127 – интернациональные
(знаки латинского алфавита, цифры,
знаки арифметических операций,
знаки препинания)
• с 128 по 255 – национальные.
10. Кодовые таблицы для русских букв.
• Windows• MS-DOS
• КОИ-8
• Mac
• ISO
11. Десятичные коды некоторых символов в различных кодировках.
Символ
А
В
М
Э
я
Windo MSws
DOS
КОИ- Mac
8
192
194
204
221
255
225 128 176 1040
247 130 178 1042
237 140 188 1052
252 157 205 1069
241 223 239 1103
128
130
140
157
239
ISO
Unicode
12. Международный стандарт кодирования текстовых символов
Unicod отводит на каждый символ2 байта ( 16 битов ).
N = 65 536
- количество символов, которые
можно закодировать.