Реферат: Кодирование текстовой информации

Кодирование текстовой информации

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию.

Для кодирования одного символа в компьютере обычно используется 1 байт (8 бит).

С помощью 8 бит можно закодировать 256 различных символов. Эти коды хранятся в специальной таблице. Одной из самых первых была таблица, разработанная в США в институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII (American Standard Code for Information Interchange - стандартный код информационного обмена США).

Таблица ASCII разделена на две части. Первая - стандартная - содержит коды от 0 до 127. Вторая - расширенная - содержит символы с кодами от 128 до 255.

Первые 32 кода отданы производителям аппаратных средств, они называются

управляющие, эти коды управляют выводом данных. Им не соответствуют никакие

символы. Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, знакам арифметических действий и некоторым вспомогательным символам. Коды расширенной таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.

Все буквы в алфавите расположены по алфавиту, а цифры - по возрастанию.

Кроме кодировки ASCII существуют и другие системы кодирования: Windows 1251, КОИ-8 и др. Все вышеназванные системы кодирования используют для кодирования 1 символа - 8 бит или 1байт.

В 1991 году была предложена 16-битная система Unicode (Юникод). Для представления каждого символа в этой системе используются 2 байта: один байт для кодирования символа, другой для кодирования признака. Тем самым обеспечивается информационная совместимость данного способа кодирования со стандартом ASCII.

Национальные стандарты кодировочных таблиц включают международную часть кодовой таблицы без изменений, а во второй половине содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки. К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO), что вызывает дополнительные трудности при работе с русскоязычными документами.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Источник: Интернет.

Выполнила: НущикОльга, 8 «А» класс.