Кодирование и обработка текстовой информации.
Двоичное кодирование текстовой информации.
Различные кодировки знаков.
Кодовые таблицы для русских букв.
Десятичные коды некоторых символов в различных кодировках.
Международный стандарт кодирования текстовых символов
95.00K
Category: informaticsinformatics

Кодирование и обработка текстовой информации

1. Кодирование и обработка текстовой информации.

2. Двоичное кодирование текстовой информации.

Текстовой информацией называется
информация ,выраженная с
помощью естественных и
формальных языков в письменной
форме.

3.

• Для представления текстовой
информации достаточно 256
различных знаков.
• Для кодирования каждого знака
требуется количество информации,
равное 8 битам, то есть длина
двоичного кода знака составляет
восемь двоичных знаков.

4.

• Каждому знаку необходимо
поставить в соответствие
уникальный двоичный код из
интервала
от 00000000 до 11111111
( в десятичном коде от 0 до 255 )

5.

• При вводе двоичной информации в
компьютер происходит её двоичное
кодирование, изображение знака
преобразуется в её двоичный код.
• Пользователь нажимает на
клавиатуре клавишу со знаком, и в
компьютер поступает определённая
последовательность из восьми
электрических импульсов (двоичный
код знака). Код хранится в
оперативной памяти, где занимает
одну ячейку.

6.

В процессе вывода на экран
компьютера производится обратное
перекодирование, т. е.
преобразование двоичного кода знака
в его изображение.

7. Различные кодировки знаков.

Присваивание знаку конкретного
двоичного кода – это вопрос
соглашения, которое фиксируется в
кодовой таблице.
Одному и тому же двоичному коду в
различных кодировках поставлены в
соответствие различные символы.

8.

Двоичный
код
Десятичный
код
00000000
0
КОИ-8
Windows
MS-DOS
Mac
ISO
. . .
00001000
8
Удаление последнего символа (клавиша {Backspace})
13
Перевод строки (клавиша {Enter})
00100000
32
Клавиша {Пробел}
00100001
33
!
. . .
00001101
. . .
. . .
01011010
Z
. . .
10000000
128
-
Ъ
А
А
к
194
б
В
-
-
Т
11001100
204
л
М


Ь
11011101
221
щ
Э
_
Ё
н
11111111
255
ь
я
Нераздел.
пробел
Нераздел.
пробел
п
. . .
11000010
. . .

9.

• с 0 до 32 – операции (перевод строки,
ввод пробела и т. д.)
• с 33 по 127 – интернациональные
(знаки латинского алфавита, цифры,
знаки арифметических операций,
знаки препинания)
• с 128 по 255 – национальные.

10. Кодовые таблицы для русских букв.

• Windows
• MS-DOS
• КОИ-8
• Mac
• ISO

11. Десятичные коды некоторых символов в различных кодировках.

Симв
ол
А
В
М
Э
я
Windo MSws
DOS
КОИ- Mac
8
192
194
204
221
255
225 128 176 1040
247 130 178 1042
237 140 188 1052
252 157 205 1069
241 223 239 1103
128
130
140
157
239
ISO
Unicode

12. Международный стандарт кодирования текстовых символов

Unicod отводит на каждый символ
2 байта ( 16 битов ).
N = 65 536
- количество символов, которые
можно закодировать.
English     Русский Rules