Русский Журнал
СегодняОбзорыКолонкиПереводИздательства

Gateway | Невод | Интер(офф)вью | Бессрочная Ссылка | НасНет | ГлобусНет | Интер(акти)вью | Дурацкий Музей | Кафедра | Русская сеть: истории | Конец прекрасной эпохи
/ Net-культура / < Вы здесь
Полный CHARSET
Дата публикации:  23 Декабря 2002

получить по E-mail получить по E-mail
версия для печати версия для печати

Объективную реальность, которая нас окружает, мы воспринимаем преломленной через органы восприятия, которые воспроизводят в мозгу образы окружающего мира - знаки. От того, как мозг интерпретирует эти знаки-образы, во многом зависит индивидуальное восприятие мира. Немаловажную роль в этом деле играют и собственно человеческие знаковые системы: речь, письменность, музыка, искусства...

Языков, устных и письменных, может существовать бесконечное множество - никто не мешает любому сесть и изобрести свою собственную языковую систему, причем такую, что она будет по своим возможностям вполне адекватна любому (или почти любому) другому языку. Так возник эсперанто, изобретенный "с нуля" доктором Людвигом Заменхоффом (это самый известный из искусственных языков, но не единственный). Кавычки я поставил потому, что Заменхофф был европейцем, и естественно, что получился еще один язык романской группы из индоевропейской семьи, а не какой-нибудь тюркской или китайско-тибетской. Так что еще вопрос, насколько обоснованы претензии эсперантистов на присвоение этому языку звания "международного" - эсперанто не намного более "международен", чем английский, к примеру.

И обычные языки, возникшие естественным путем, могут абсолютно ничем не напоминать друг друга, как японский и английский, к примеру, однако, если отвлечься от культурных особенностей наций - носителей соответствующих языков, то перевод с одного на другой в большинстве случаев может быть осуществлен вполне адекватно (хотя эта задача, как выяснилось недавно, в общем случае является неалгоритмизируемой - "невычисляемой" по Тьюрингу). В отличие от музыки или, к примеру, пиктографии, языковые знаковые системы являются чисто договорными. И как раз по этой причине их так просто реформировать, переходить с одного алфавита на другой и совершать над ними прочие издевательства - да и сами по себе языки в историческом масштабе времени изменяются чрезвычайно быстро: скажем, еще во времена "Слова о полку Игореве" украинский, белорусский и русский языки практически не различались.

Тем интереснее проследить на примере искусственно созданной системы, что может произойти, если ее развивать бездумно и волюнтаристски, руководствуясь чисто прагматическими нуждами текущего момента без какого-либо прицела на завтрашний день. Речь идет о системах компьютерной кодировки текстовых символов. Трудно встретить еще какую-либо область человеческой деятельности, в процессе развития которой разработчики столь старательно расставляли бы грабли, добившись в конечном итоге, что при всем старании не наступить на хоть какие-нибудь стало просто невозможно.

БрайльПритом речь идет не только о кодировках кириллицы - это просто крайний случай. История цифрового кодирования алфавита даже началась с нелепостей. Капитан французской армии Шарль Барбье в 1819 году попытался разработать систему "ночного письма", в котором выпуклыми точками и тире на бумаге кодировались не буквы, а, можете себе представить, - звуки! Естественно, это было практически непригодная для французского языка вещь. Не слишком большим воображением обладал и основатель парижского Королевского института слепых Валентин Ойи - он придумал систему рельефных букв, которые можно было читать, касаясь пальцами. Поэтому трудно переоценить гениальность ослепшего в возрасте трех лет Луи Брайля (Louis Braille, 1809-1852), который еще в мальчишеском возрасте придумал последовательную систему рельефных точек, кодирующих буквы алфавита, цифры и знаки препинания, которая, несколько дополненная, используется и в наши дни. Базовый элемент системы Брайля содержит 6 позиций-ячеек, каждая из которых может быть выпуклой или плоской - то есть она является двоичной. Всего ней можно закодировать 26=64 символа, однако Брайлем предусмотрен механизм практически неограниченного расширения количества кодируемых символов - для этого употребляются коды-переключатели (shift-коды). Наличие такого переключателя означает, что все последующие знаки надо читать определенным образом (например, как цифры, а не буквы), до тех пор, пока не встретится другой подобный знак. Другая разновидность переключающих кодов (escape-коды) действует только на один знак после такого кода, и тоже впервые введена в азбуке Брайля. Такие системы кодирования с переключением получили в дальнейшем широкое распространение в компьютерной технике - возьмите хотя бы принцип устройства языка HTML.

Следующим этапом было возникновение азбуки Морзе - 1838 год. Морзе был не первым, кто придумал двоичную кодировку алфавита в целях передачи текстовых сообщений по электрическим цепям - еще до него это сделал русский немец барон Шиллинг, продемонстрировавший действующую конструкцию телеграфа в 1828 году, однако аппарат Морзе был устроен значительно проще и надежней, потому именно "морзянка" используется в телеграфии и по сей день. Следует отметить, что она не является двоичной кодировкой в полном смысле этого слова - в ней, кроме точки (ноль) и тире (единица), как минимум необходимо использовать третий знак - длинную паузу, как промежуток между отдельными буквами. Кроме того, азбука Морзе очень удобна для передачи комбинаций точек-тире-пауз последовательно, но совершенно непригодна для передачи одновременно целой буквы - в т.н. параллельных кодах, когда код каждого символа обязан иметь фиксированное количество бит (например, по числу проводов в линии). В последнем случае различить, например, символы S, E и X не представляется возможным, так как все они состоят из разного количества одних только точек, и в параллельном двоичном коде будут одинаково представлены сплошными точками-нулями.

Муза МорсаСамюэль Морзе (Samuel F. Morse, 1791-1872) не был дипломированным ученым или инженером - к моменту своего первого знакомства с действием тока на магнитную стрелку в 1832 году (ему тогда уже перевалило за сорок) он успел стать известным художником, профессором живописи и даже президентом (первым по счету) национальной Академии художеств США. Вот ведь как бывает - наверное, он искренне считал свои картины делом всей своей жизни, но кто их помнит сейчас? Зато "азбуку Морзе", несмотря на все успехи информационных технологий, до сих пор изучают во всех без исключения учебных заведениях, связанных со связью, как непревзойденное по надежности средство передачи сигналов на расстояние - когда другие способы в условиях сильных помех отказывают, "морзянку" все равно можно спокойно принимать.

Предшественником современных компьютерных кодировок принято считать коды, разработанные еще в 1874 французом Эмилем Бодо (Emile Baudot), усовершенствованные позднее Дональдом Мюрреем и принятые в качестве международного стандарта в 1931 году. Официальное название кода Бодо - International Telegraph Alphabet #2, ITA-2. Он использовался в телетайпных аппаратах и, соответственно, в первых компьютерах, некоторые из которых эти аппараты использовали в качестве входных-выходных консолей. Коды Бодо - пятибитные, поэтому количество представленных символов ограниченно 32-мя, чего для всех необходимых символов не хватает. Для увеличения этого числа, как и в коде Брайля, использовались shift-переключатели. Это неудобно - основная проблема в том, что переключатель типа shift действует до тех пор, пока не встретится другой переключатель, отменяющий первый (в HTML, к примеру, каждому тегу поставлен в соответствие закрывающий тег). Поэтому, если какое-то сообщение заканчивается цифрой, то начало следующего за ним текста до первого отменяющего переключателя будет представлять бессмысленный набор цифр вместо букв. С этим мог сталкиваться каждый, кто пытался печатать "красиво" на матричных принтерах, скажем, на популярном некогда FX-800, или еще более древнем Robotron 63291. Если некий текст заканчивался курсивом без отмены этого режима в конце документа, то следующая попытка что-то распечатать приводила к тому, что документ тоже начинался с курсива.

Кроме того, использование пятибитных кодов неудобно для компьютерной техники - все равно элементарная ячейка памяти занимает один байт, то есть 8 бит (хотя так было не всегда). А восемью битами можно закодировать 256 символов без всяких переключателей, что уже приемлемо по крайней мере для представления большинства европейских языков с латинским алфавитом.

(продолжение следует)


1) Для простейшего управления матричными принтерами существовала специальная система команд IBM Proprinter (она поддерживается и принтерами Epson, так как именно Epson поставляла первые принтеры для IBM PC), которые позволяют осуществлять элементарные операции с текстом и даже манипулировать принтером в графическом режиме при поточечной печати. Команды состоят из символа ESC (код 27) и последующего байта, кодирующего собственно команду. Например, коды 27 69 переключат принтер в печать жирным шрифтом, а 27 70 - отключают этот режим. Не все знают, что и современные принтеры, скажем, лазерные, тоже поддерживают этот набор команд.


поставить закладкупоставить закладку
написать отзывнаписать отзыв


Предыдущие публикации:
Татьяна Мерсадыкова, Happy end, или Новейшая история о том, как Иван Иванович поссорился с Иваном Никифоровичем /23.12/
Рождественский рассказ с моралью и не без сюжета.
Мирослав Немиров, Все о поэзии 120 /20.12/
Ходасевич, Владислав.
Юрий Ревич, Честные дети /15.12/
Все мы вышли из Fairchild. "Все мы" означает - те, кто связан с персональными компьютерами, а с ними нынче связаны все поголовно.
Мирослав Немиров, Все о поэзии 119 /15.12/
Шанель, Коко. Шарапова, Светлана. Шаргунов Александр, протоиерей.
Наш человек в LiveJournal /08.12/
Беседа нашего корреспондента с avvaАнатолием Воробьем о Живом Журнале и русском Интернете.
предыдущая в начало следующая
Юрий Ревич
Юрий
РЕВИЧ
revich@homepc.ru

Поиск
 
 искать:

архив колонки: