3.41M
Category: informaticsinformatics

Кодирование информации

1.

МК
Ключевые слова
• текстовая информация
• кодирование
• кодовые таблицы

2.

МК
Компьютерное представление
текстовой информации
Для компьютерного представления текстовой информации
достаточно:


Определить алфавит
(множество всех
символов)

64
01000000
65
01000001
66
01000010
67
01000011
68
01000100
Присвоить каждому
символу алфавита
порядковый номер
Перевести номер
символа в двоичную
систему счисления

3.

МК
Кодировка ASCII
American Standard Code for Information Interchange –
американский стандартный код для обмена информацией,
разработанный в 1960-х годах в США.
00 0 1 0 02 0 30 04 0 5
6
7Изображаемые
8
9 A B символы
C D
E
F
(буквы
цифры,
0 NUL SOH STX ETX EOT ENQ ACK
BEL латинского
BS HT алфавита,
LF VT FF
CR знаки
SO SI
1
препинания и арифметических операций,
скобки
некоторые
специальные
символы)
DLE
DC40 NAK SYN
ETBиCAN
EM SUB
ESC FS GS
RS US
0 0DC1
1 DC2
0 0 DC3
0 0
2
!

#
$
%
&

(
)
* 0 + 0 0, 1 -1 1 . 1 /1
3
0
1Первые
2
3 324символа
5
6 и
7 128-й
8
9–
:
;
<
=
>
?
4
@
I
J
K
L
M
N
O
5
P
C D
E
F
G H
AA Bне отображаются
(при выводе текста они
графически)
6
7
управляющие
Q
0 1 R0 0S 0 T0 0U 1 V
W
X
Y
Z
[
\
]
^
_
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
{
|
}
~
DEL
0 1 1 1 1 1 1 0

4.

МК
Расширение кодировки ASCII
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
00 0 1 0 02 0 30 04 0 5
6
7
8
9 A B
C D
E
F
NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
кода
127)
DLE DC1 DC2 DC3 DC4 NAK Стандартная
SYN ETB CAN EM часть
SUB ESC
FS (0
GS… RS
US
!

#
$ % &

(
)
*
+
,
.
/
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
@ A B
C D
E
F
G H
I
J
K
L M N O
P Q R
S
T U V W X
Y
Z
[
\
]
^
_
`
a
b
c
d
e
f
g
h
i
j
k
l
m n
o
p1 0 q 0 0r 0 s0 0t 0 u
v w x
y
z
{Windows-1251
| КОИ-8
}
~ DEL
Ђ
† ┤
‡ ┬
€ ‰
‹1 Њ
Ќ1 1▌
Ћ1 ▐
Џ1

│Ѓ
┌‚
┐ѓ
└„ …
┘ ├
┴ Љ
┼ 0▀

1 1█
ђ ▒‘

•∙
–√ —
њ
ќ²
ћ∙
џ
⌠“

≤ ™
≥ љ ⌡›

°
÷

▓’
Ў ╒
ў
¤ ╔
Ґ ╕
¦ ╖
Ё ©
Є ╚
« ╛
¬ ╜ ╝
® ╞Ї
ёЈ
§ ╗
═ ║

╘ ╙
ґ
µ ╤
¶ ╥∙
ё №
є ╩
» ╪ј
Ѕ ╬
ѕ ©
ї
°
± ╡І
Ёі





╧ ╨

А Б
В
Д
Зг
И
Й
К
Н О
ю
а
б
цГ
д
еЕ Ж
ф
х
и
й Л
к М
л м
н П
о
Р
С
Т
Ус Ф
Ху ж
Э Ю
Я
п
я
р
т
ь Щ
ы Ъ
з Ы
ш Ьэ щ
ч
ъ
Расширение
ASCII
(Ц128Чв… Ш
255)
а
б
в
д
еЕ Ф
ж
зГ
и
й Й
к
л м
н Н
о О
п
Ю
А
Б
Цг
Д
Х И
К
Л М
р
ф
цалфавита,
ч ш
щ ъ
ы Э
ь Щ
э ю
я
П
Яс (буквы
Рт
Сунационального
Т
Ух Ж
В
Ь Ы
З Ш
Ч Ъ
национальной валюты и т.п.)
1 1 1 1 1 1 1 1

5.

МК
Расширение кодировки ASCII
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0
1
2
3
4
5
6
7
8
9 A B
C D
E
F
NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
!

#
$ % &

(
)
*
+
,
.
/
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
@ A B
C D
E
F
G H
I
J
K
L M N O
P Q R
S
T U V W X
Y
Z
[
\
]
^
_
`
a
b
c
d
e
f
g
h
i
j
k
l
m n
o
p
q
r
s
t
u Windows-1251
v w x
y
z
{
| КОИ-8
}
~ DEL
Ђ ─ Ѓ │ ‚ ┌ ѓ ┐ „ └ … ┘ † ├ ‡ ┤ € ┬ ‰┴ Љ ┼ ‹ ▀ Њ ▄ Ќ █ Ћ ▌ Џ ▐
≤ ™≥ љ
ђ ░ ‘ ▒ ’ ▓ “ ⌠ ” ■ • ∙ – √ —≈
› ⌡ њ° ќ ² ћ ∙ џ÷
═ Ў ║ ў ╒ Ј ё ¤ ╓ Ґ ╔ ¦ ╕ § ╖ Ё ╗ ©╘ Є ╙ « ╚ ¬ ╛ ╜ ® ╝ Ї ╞
° ╟ ± ╠ І ╡ і Ё ґ ╢ µ ╣ ¶ ╤ ∙ ╥ ё ╦ №╧ є ╨ » ╩ ј ╪ Ѕ ╫ ѕ ╬ ї ©
А ю Б а В б Г ц Д д Е е Жф З г И х Й и К й Л к Мл Н м О н П о
Р п С я Т р У с Ф т Х у Ц ж Ч в Ш ь Щы Ъ з Ы ш Ь э Э щ Ю ч Я ъ
аЮ б А в Б г Ц д Д е Е жФ з Г и Х й И к Й л К м Л нМ о Н п О
р П с Я т Р у С ф Т х У ц Ж ч В ш Ь щЫ ъ З ыШ ь Э э Щ ю Ч я Ъ

6.

МК
Стандарт Unicode
!
Unicode — это «уникальный код для любого символа,
независимо от платформы, независимо от программы,
независимо от языка» (www.unicode.org).
Стандарт Unicode был разработан в 1991
году и описывает алфавиты всех известных, в том числе и «мертвых», языков. Для
языков, имеющих несколько алфавитов
или вариантов написания (японского и
индийского), закодированы все варианты.
В кодировку Unicode внесены все математические и иные научные символьные
обозначения и даже некоторые придуманные языки (язык эльфов из трилогии Дж. Р.
Р. Толкина «Властелин колец»).

7.

МК
Клавиатуры некоторых стран мира
РУССКАЯ
АМЕРИКАНСКАЯ
АРАБСКАЯ
АРМЯНСКАЯ
ЯПОНСКАЯ

8.

МК
Кодировки стандарта Unicode
Для представления символов в памяти компьютера в
стандарте Unicode имеется несколько кодировок.
Кодировка
UTF-16
Кодировка
UTF-8
Часто используемые
символы:
2 байта (16 бит)
Символы, входящие
в таблицу ASCII:
1 байт (8 бит)
Редко используемые
символы:
4 байта (32 бит)
Символы, не входящие
в таблицу ASCII:
2-4 байта (16-32 бит)
Кодировки Unicode позволяют включать в один
документ символы самых разных языков, но их
использование ведёт к увеличению размеров
текстовых файлов.
!

9.

МК
Информационный объем сообщения
!
Информационным объёмом текстового сообщения называется количество бит (байт, килобайт,
мегабайт и т. д.), необходимых для записи этого
сообщения путём заранее оговоренного способа
двоичного кодирования.
Количество символов
в сообщении
ASCII, КОИ-8,
Windows-1251, …
1 символ = 1 байт
Unicode
1 символ = 2 байта

10.

МК
Вопросы и задания
?
В Советском энциклопедическом словаре
(1983 года издания) 1600 страниц. На одной
странице размещается в среднем 100 строк по
140 символов (включая пробелы) в каждой.
Найдите объем текстовой информации в
словаре, если при записи используется
кодировка «один символ — один байт».
Дано:
1600·100·140
i = 1 байт
I = K·i I =
Мб ≈ 21,36 Мб
1024·1024
K = 1600·100·140
I-?
Ответ: 21,36 Мбайта

11.

МК
Самое главное
Текстовая информация по своей природе дискретна, так как
представляется последовательностью отдельных символов.
В памяти компьютера хранятся специальные кодовые
таблицы, в которых для каждого символа указан его двоичный
код. Все кодовые таблицы, используемые в любых
компьютерах и любых операционных системах, подчиняются
международным стандартам кодирования символов.
Основой для компьютерных стандартов кодирования
символов послужил код ASCII, рассчитанный на передачу
только английского текста. Расширения ASCII — кодировки, в
которых первые 128 символов кодовой таблицы совпадают с
кодировкой ASCII, а остальные (со 128-го по 255-й)
используются для кодирования букв национального алфавита,
символов национальной валюты и т. п.

12.

МК
Самое главное
В 1991 году был разработан новый стандарт кодирования
символов,
получивший
название
Unicode
(Юникод),
позволяющий использовать в текстах любые символы любых
языков мира. Кодировки Unicode позволяют включать в один
документ символы самых разных языков, но их использование
ведёт к увеличению размеров текстовых файлов.

13.

МК
?
Вопросы и задания
Задание 1. Представьте в кодировке ASCII текст
Happy New Year!
а) шестнадцатеричным кодом
48 61 70 70 79 20 4E 65 77 20 59 65 61 72 21
б) десятичным кодом
72 97 112 112 121 32 78 101 119 32 89 101 97 114 33
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
9 A B
C
NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF
DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS
!

#
$ % &

(
)
*
+
,
0
1
2
3
4
5
6
7
8
9
:
;
<
@ A
B
C D
E
F
G H
I
J
K
L
P Q R
S
T U V W X
Y
Z
[
\
`
a
b
c
d
e
f
g
h
i
j
k
l
p
q
r
s
t
u
v w x
y
z
{
|
D
E
F
CR SO SI
GS RS US
.
/
=
>
?
M N O
]
^
_
m n
o
}
~ DEL
ОТВЕТ

14.

МК
Подходы к расположению русских
букв в различных кодировках
?
Задание 2. Сравните подходы к расположению русских букв
в кодировках Windows-1251 и КОИ-8.
0

4
5
6
7
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
@ю A а B б C ц D д E е F ф G г H х I и J й K к L л M м N н O о
P п Q я R р S с T т U у V ж Wв X ь Y ы Z з [ ш \ э ] щ ^ ч _ ъ
` Ю a А b Б c Ц d Д ee Е f Ф g Г h Х ii ИИ j Й k К l Л mМ n Н o О

П q Я rr РР s С tt ТТ u У v Ж w В x Ь y Ы z З { Ш | Э } Щ ~ Ч Ъ

Windows-1251
C
D
E
F
А ю Б а В б Г ц Д д Е е Жф З г И х Й и К й Л к Мл Н м О н П о
Р п С я Т р У с Ф т Х у Ц ж Ч в Ш ь Щы Ъ з Ы ш Ь э Э щ Ю ч Я ъ
аЮ б А в Б г Ц д Д е Е жФ з Г и Х й И к Й л К м Л нМ о Н п О
р П с Я т Р у С ф Т х У ц Ж ч В ш Ь щЫ ъ З ыШ ь Э э Щ ю Ч я Ъ
ПОДСКАЗКА - 1
КОИ-8
ПОДСКАЗКА - 2
English     Русский Rules