Russian Journal winkoimacdos
13.11.98
Содержание
www.russ.ru www.russ.ru
NET-Культура архивпоискотзыв

Гутенберг будет Федоров?

Саша Шерман
sherman@sharat.co.il

(развитие электронных библиотек - проект на сто миллионов долларов)

Александрийская библиотека была основана в III веке до нашей эры и содержала от 100 до 700 тысяч рукописей. В 47 году до новой эры она была частично сожжена. Ее остатки уничтожены в IV веке нашей эры.

Конец Библиотеки совпал с концом античного мира.
Гутенберг. Историческое

Для начала несколько более-менее общеизвестных фактов касательно проекта "Гутенберг".

Начало проекта - 1971 год.

Государство - США.

Организатор - профессор Иллинойского университета Майкл Харт.

Финансовая база - 100 000 000 (прописью: сто миллионов) долларов США, выданные профессору не наличностью, но в эквиваленте машинного времени.

Заметим, что в 71-ом году доллар был большим, а компьютеры - тоже большими, но дорогими и глупыми. Профессору Харту было предложено придумать вариант использования незадействованных и дорогостоящих казенных ресурсов. Меньше чем за два часа он придумал электронную библиотеку, получившую название "проект "Гутенберг".

Далее профессор предпринял следующие политически грамотные шаги:

Своими руками вбил в компьютер "Декларацию независимости США" и послал ее для ознакомления всем, кого знал.

Та же операция была проделана с "Биллем о правах" и "Конституцией".

Следующей в очереди стала "Библия".

Неужели вечные истины не стоят ста миллионов? Любой инспектор, пожелавший проверить качество утилизации казенного ресурса, просто обязан был бы стать по стойке смирно, узрев электронное воплощение Слова.

Однако, родившись на казенный счет, "Гутенберг" так и не стал государственной программой. 10^9 долларов условных машинных часов (образца 71-го года) не могли помочь решить проблему создания электронных копий для всех текстов, представляющих золотой фонд человеческой цивилизации, а задача была именно такова. "Гутенберг" продолжал существовать только лишь усилиями добровольцев, забесплатно набиравших наиболее значимые с их точки зрения тексты. Только таким путем можно было решить основную экономическую проблему публичной электронной библиотеки - проблему максимального снижения стоимости электронного текста. Только снижение себестоимости электронного текста до практического нуля позволяло создать совершенно бесплатную (а значит - открытую для всех) библиотеку.

Известное ограничение накладывали также требования к объему текста, обусловленные дороговизной и несовершенством носителей электронной информации в те далекие времена.

До начала 90-х, когда Интернет стал реальностью не только для персонала престижных университетов, "Гутенберг" накопил всего несколько сот текстов, что явно не отвечало масштабам поставленной задачи. Развитие Сети, принесшее "Гутенбергу", кроме колоссальной аудитории потенциальных читателей, еще и ощутимую рабочую силу наборщиков-волонтеров, а также существенное удешевление носителей, сделали воплощение намерения профессора Харта вполне осуществимым. Темпы накопления текстов начали стремительно возрастать. Но тут возникли проблемы совсем иного рода. Часть из них касается качества текста.

Вопросы техники и энтропия электронного текста

С самого начала требования к электронному тексту, предназначенному для широкой аудитории, были несколько занижены по сравнению с бумажным вариантом. Отчасти это было продиктовано технической стороной дела: поскольку текст должен был быть максимально доступным и независимым от аппаратного и программного обеспечения пользователя, то и его электронная кодировка должна быть, согласно идеологии проекта, максимально простой. Есть такая стандартная кодировка - это "чистый" ASCII (без первых 32 символов, зарезервированных как управляющие, или "контрольные", сигналы). Это позволяет воспроизвести любой английский текст, но никаких "излишеств" вроде курсива (который часто бывает авторским, а значит, необходимым), выделения более плотным шрифтом, изменения величины и стиля шрифта, а уж тем более введения иллюстраций - такой формат не допускает. Не говоря о текстах, написанных не в английской литерации (для них, как, например, для русского, зарезервирована верхняя половина таблицы ASCII, и каждая национальная версия программного обеспечения трактует эту верхнюю часть по-своему). Любое решение означенной проблемы на основе другого стандарта воспроизведения текста, от HTML до RTF (все, что называется "mark up" - о совершенно бинарных вариантах речи быть не может вообще), рождает угрозу того, что изменения стандарта сделают текст нечитаемым в новой среде. Общего же стандарта управления внешним видом текста не существует по сей день, вряд ли он появится и в ближайшем будущем. "Гутенберг" не принимает HTML-варианты. Подобной политики придерживается, кстати, и Мошков в своей библиотеке: хотя у него все тексты "зашиты" внутрь HTML, но никакой дополнительной разбивки текста не делается - текст воспроизводится "как есть" - чистым ASCII.

Лично мне не очень понятно такое пуританство в подходе к форматированию текста. В конце концов любой "mark-up" может быть превращен в "чистый" текст путем разумной фильтрации определенных символов разметки (более-менее это "умеют" делать даже HTML-редакторы, работающие под Windows-95). Наверное, основная проблема здесь все же в увеличении затратности процедуры верстки, что вполне объяснимо.

Другая проблема воспроизведения текста (возможно, более важная) - идентичность электронной версии текста авторскому оригиналу.

"We put our sights on a goal to release etexts that are 99.9% accurate in the eyes of the general reader. Given the preferences your proofreaders have, and the general lack of reading ability the public is currently reported to have, we probably exceed those requirements by a significant amount. However, for the person who wants an "authoritative edition" we will have to wait some time until this becomes more feasible".

"Мы ставили своей задачей выпускать электронные тексты, которые были бы на 99.9% точны в глазах большинства читателей. Если принять во внимание допущения корректоров и общий недостаток читательских умений у аудитории, мы значительно превзошли это требование. Однако тем, кто хочет получить "авторитетное издание", придется подождать некоторое время, пока это станет более осуществимо", - говорит Харт на странице "Гутенберга".

Профессор Харт подходил к вопросу "точности текста" достаточно либерально. Он говорит примерно следующее: если у Шекспира стоит точка с запятой, а в электронном варианте оказалось двоеточие, то такая ошибка - не ошибка. Потомки нас простят. Было бы кому читать. Нетрудно заметить, что приведенный пример чересчур прост. При ручном наборе текстов допускались ошибки и посерьезней (интересно, не добавились ли к ошибкам многочисленных переписчиков Библии еще и вероятные ошибки наборщиков из "Гутенберга"?). Даже сканер, отменивший в последнее время труд "машинистки", допускает ошибки в трактовке символов. Демократизация процесса размножения электронных текстов, способствуя их удешевлению с одной стороны, с другой стороны приводит к ухудшению качества, поскольку централизованный и компетентный контроль за качеством текста (в обычных условиях осуществляемый редактором издания) в условиях "народной" библиотеки попросту отсутствует. Контроль наверняка стоит денег. Насколько необходим такой контроль?

Вопрос этот подводит к другому вопросу: "для чего строить эту библиотеку?". В более жесткой форме: "для кого ее строить?"

Кому нужна библиотека

Я слышал, что тексты библиотеки Мошкова грешат-де неточностями и ошибками. Проверить этого я не могу и не буду - мне и не нужно. Я говорю "большое спасибо" за то, что они есть, Мошков и его корреспонденты, и с радостью читаю там книжку, которую не могу найти в магазине. Мне нравится находить необходимую мне цитату, причем не отходя от компьютера. Обнаружив там недавно тексты никому не известной рок-н-рольной команды, был рад до беспамятства. Пользу библиотеки Мошкова никому не нужно доказывать. Но Мошков - не "Гутенберг". Библиотека Мошкова уникальна, как уникален весь советский "самиздат". Она народна без кавычек, и подбор ее текстов во многом обусловлен именно литературным вкусом, доминирующим в настоящее время среди пользователей русского Интернета, поскольку они же ее текстами и обеспечивают. Устроит ли она с точки зрения аутентичности текстов и критерия их подбора филолога, литературоведа, критика, историка и прочих "игроков в бисер"? Боюсь, что нет. Более того, думаю, что как раз им-то электронная библиотека была бы нужнее, чем всем остальным 99 процентам пользователей этого удобства. Но эта гипотетическая "библиотека для игроков в бисер" нуждается в совершенно другой идеологии существования и ими же должна строиться.

Библиотека Мошкова начиналась не с распечатки конституции СССР и даже не с "Евгения Онегина", и уж тем более не с Библии. Он не ставил перед собой задачи сохранения культурного наследия, золотого фонда и нерукотворных памятников. Его библиотека пополняется тем материалом, который интересен и актуален сейчас для большинства. Никакого внешнего вмешательства процесс не требует - главное, чтобы ему не мешали (об этом несколько слов позже). Там уже есть 11 тысяч текстов. "Гутенбергу" не снилось.

Для создания академической библиотеки подобный "демократичный" подход неприемлем - поскольку в такой библиотеке энтропия текстов должна быть сведена к нулю, а критерий подбора книг должен основываться на принципах более общих, чем интересы аудитории сегодняшнего дня. Если не принять это как аксиому, то весь разговор о необходимости такой библиотеки становится бессмысленным (что не помешает автору этой статьи надеяться на свой гонорар, но может помешать "игрокам в бисер" получить дотации на строительство их Библиотеки).

Похоже, что именно противоречие между этими двумя пунктами и подвело проект "Гутенберг" (который все же жив и здравствует). С одной стороны, он не смог стать подлинно массовой и всенародно любимой библиотекой (мошковский вариант), с другой - он вряд ли может выступать как компетентное собрание текстов для "профессионалов" (хотя таковое стремление он сохраняет, и Шекспир там выдержал несколько изданий). "Гутенберг", при всех благих намерениях его авторов, сегодня видится чем-то вроде склада завернутых ZIP-ом текстов, хранимых на случай ядерной катастрофы.

Впрочем, "Гутенберг" давно не держит монополии на развитие электронных публикаций. Посмотрим на другие проекты электронных библиотек, благо гутенберговский сайт содержит тематическую подборку их сетевых адресов. Просто несколько примеров, для того чтобы посмотреть, как и чем они живут.

Некоторые из примеров взяты из линк-листа "Гутенберга", некоторые найдены на других линк-листах, в попытке изобразить некоторую объективность и широту.

Короткая экскурсия по библиотекам

Для начала - "официальная" сторона электронно-библиотечного дела. В Соединенных Штатах на программы развития электронных библиотек и исследования в данной области сегодня тратятся десятки миллионов долларов. Разумеется, речь идет не столько о создании архивов литературных произведений, сколько о строительстве некой общей системы, максимально облегчающей навигацию в архивах научно-технической информации, а также о сохранении образов уникальных исторических объектов в электронной форме. Последней задачей занимается электронное отделение Библиотеки Конгресса США.

Электронная библиотека "Американская Память" существует и строится на средства, специально выделяемые Конгрессом США, а также на многочисленные спонсорские пожертвования. В длинном списке спонсоров можно найти IBM, Hewlett-Paccard, AT&aT, Bell, Kodak и прочих монстров. В списке они сортированы согласно сумме вспомоществования: кто меньше 5 миллионов долларов, кто больше. Общая стоимость программы - 60 миллионов долларов, из которых 75% предполагается получить из спонсорских фондов.

Библиотека "Американская Память" представляет собой мультимедийную коллекцию экспонатов Библиотеки Конгресса, имеющих наибольшую ценность. В ней представлены уникальные документы, манускрипты, книги, фотографии, а также киноленты и музыкальные записи.

Эта библиотека более похожа на музей. К теме электронного текста она имеет косвенное отношение, но к теме сохранения культурного наследия и облегчения доступа к нему - самое прямое. А также к теме идеологии и пропаганды. Нелишне будет заметить, что вся американская программа создания глобальной электронной библиотеки проходит по линии оборонных проектов.

Программа D-Lib (имеющая одноименный электронный журнал) специализируется исключительно на изучении проблемы электронных библиотек и электронных публикаций в целом.

Поддерживается организацией DARPA, что расшифровывается как Defense Advanced Research Project Agency - Агентство передовых исследований в области обороны.

Цели программы - стимуляция разработок общей инфраструктуры цифровых библиотек, обмен информацией между исследовательскими центрами, работающими над созданием информационных архивов, и реализация идей исследователей в практическом построении национальной электронной библиотеки.

Насчет официальных программ в области информатики, наверное, можно было бы написать не одну статью-исследование (что, собственно, и сделано на D-Lib). Официальные программы развития электронных библиотек намного превосходят задачи сохранения текста в электронной форме и обеспечения широкого доступа к нему. Литература и публицистика не находятся в фокусе этих программ, оставаясь в ведении заинтересованных лиц, работающих на стыке информатики и гуманитарных областей.

Следующие два примера касаются диаметрально противоположного полюса развития идеи электронных библиотек. Это архивы, возникшие по инициативе студенческих объединений и в основном ими же поддерживаемые.

English Server
english-www.hss.cmu.edu

Создан в 1990 году силами студентов Меллоунского Университета с целью исследований в области гуманитарных наук. В 1991-ом студентам был пожалован дополнительный хард-диск от факультета английского языка. Сейчас им предоставлено несколько машин и 13 гигабайт дискового пространства. На сервере, кроме литературных текстов самого разного толка, находится графика, музыка и прочие "гуманитарные ресурсы", накопленные "с миру по нитке". На академичность эта библиотека не претендует, являя собой скорее "клуб по интересам" (225 постоянных членов). Сервер существует на пожертвования, гранты и маленький бюджет, выделенный факультетом английского языка.

The Etext Archives
www.etext.org

"Архив электронных текстов" основан в 1992 году при факультете информационных технологий Мичиганского Университета. История утверждает, что оборудование полностью было приобретено на деньги основателей проекта. Изначальной его целью было создание архива политических документов, периодики, а также дискуссий в Юзнетовских группах misc.activism.progressive, alt.society.anarchy и присоединившейся позже alt.politics.radical-left. Развитие электронных журналов (e-zines) и необходимость некоторой координации между ними принесли в проект новую струю, и на сервере начали хранить материалы различных молодежных e-zines, посвященных хакерству и интернетовскому анархизму. Разумеется, "библиотекой" в классическом смысле слова ETEXT.ORG не является, хотя интересной коллекцией электронных текстов - несомненно.

Следующие два архива поддерживаются коммерсантами:

Электронная библиотека BOOKS.COM
www.books.com/scripts/lib.exe?sid~oEgDtxEoAMGx4WA

Коммерческий сервер books.com содержит у себя довольно большое собрание электронных текстов, доступных для бесплатного чтения. При ближайшем рассмотрении оказывается, что это тексты проекта "Гутенберг". Пример интересного использования доступного материала в целях создания благообразного имиджа. Упоминания о "Гутенберге" на страницах самой библиотеки не найдено, это указано в самих текстах.

Рекламный текст объявляет, что среди тысяч произведений, находящихся в архиве сервера, можно найти даже Монти-Пайтоновские сценарии.

Библиомания
www.bibliomania.com

Небольшая библиотека "Библиомания" по существу представляет собой рекламный проект фирмы Datatext, специализирущейся в области электронных публикаций. Еще одно коммерческое применение идеи публичной электронной библиотеки.

И, наконец, собственно литературные проекты:

Project Bartleby (est. 1994) Archive
www.columbia.edu/acis/bartleby
www.bartleby.com

Первая (из перечисленных выше) настоящая электронная библиотека. Основана в 1993 году, работа над ней завершена в 1996. В настоящее время в ней представлены всего 38 авторов, но зато каждый шикарно издан.

Проект "Бартлеби" обещает стопроцентную аккуратность воспроизведения оригинального текста. Все тексты опубликованы в формате HTML, с удобной классификацией, иллюстрациями и биографиями авторов. Создатели проекта стремились сделать его подходящим как для чтения, так и для академических целей.

Принципы отбора текстов в библиотеке "Бартлеби" переведу почти дословно, хотя они несколько расплывчаты:

1) преобладание образовательной направленности; 2) честность в освещении всех областей литературы, особенно творчества "альтернативных" авторов; 3) создание доступного и авторитетного источника, незаменимого бумажным изданием; 4) работы, представляющие общий интерес; 5) запросы академических проектов, а также их продукты; 6) дань уважения к авторам и их месту в истории; 7) превыше всего: литературная ценность, снискавшая любовь.

Internet Public Library
www.ipl.org/index.html

"Публичная Интернет-библиотека" содержит 7700 наименований, которые можно просматривать согласно списку авторов, перечню названий или используя поисковую систему.

Из всех представленных в данном обзоре архивов эта библиотека - самая молодая (началась зимой 95-го года). Она же - самая основательная.

Библиотека создана студентами Мичиганского Университета (упомянутого выше в связи с архивом ETEXT) с целью моделирования электронной библиотеки, как ни тавтологично это звучит. "Публичная Сетевая Библиотека" также претендует на абсолютную точность публикаций предлагаемых ею произведений. Все тексты сверстаны в HTML, тщательно отсортированы и каталогизированы.

Персонал библиотеки работает за зарплату, а бюджет составляет $100 000 в год. Источник бюджета - гранты из фонда Келлога, а также "подарки друзей библиотеки". Выглядит она, соответственно, очень хорошо.

В Публичной Библиотеке находится также очень большой список адресов литературных ресурсов англоязычной Сети (более 200 линков).

Конец обозрения.

Мораль

Итак, в обозрении совершено случайно (действительно так) оказалось по два представителя от каждой группы: а) продукты деятельности государственных чиновников; б) самодеятельные студенческие архивы; в) коммерческие благотворительные акции; и наконец г) собственно библиотеки, задуманные и устроенные не как склад текста, но как полезный и удобный источник литературного и референтного материала.

Как нетрудно заметить, наиболее интересные вещи получились на университетской базе, где профессионализм и энтузиазм персонала были подкреплены весьма солидным денежным вливанием. Источниками их финансирования служат главным образом частные фонды и отчасти бюджеты учебных заведений, при которых развиваются электронные библиотеки. Вывод сей можно было бы сделать и без экскурсии, но с ней все выглядит нагляднее и интересней.

И все же, помимо проблем технического и финансового свойства, существует еще одна проблема, которая грозит стать камнем преткновения для всех носителей идеи свободной информации в целом.

Копирайт

Так называемый "копирайт", представляющий собой отнюдь не "авторское право", но узурпацию права на копирование авторской работы, дамокловым мечем навис над любой мало-мальски стоящей публичной библиотекой. В Америке, где ранее было принято объявлять произведение публичным достоянием спустя 14 лет после смерти автора, этот срок был увеличен сначала до 28, а в прошлом году - до 50 лет. Таким образом, практически вся современная литература, находящаяся в широком доступе, оказалась "вне закона". Динамика ужесточения "копирайта" свидетельствует, что у нынешнего поколения американцев практически нет шансов увидеть в свободном доступе тексты их современников. Такое положение вещей ставит под угрозу саму идею электронной публикации как средства освобождения информации из рамок социума.

Сегодня, когда количество информации удваивается каждые два года, решив легкую математическую задачу, можно предположить, что виртуально вся информация будет подпадать под "копирайт"... и на гораздо более длительный срок, чем продолжительность жизни наших детей.

Это слишком.

Майкл С. Харт

(создатель проекта "Гутенберг")

Остается лишь надеяться, что нормальный и естественный "копилефт" побьет ненормальный "копирайт", поскольку Сеть глубоко анархична по своей природе. Но, несмотря на всю ее анархичность, уже сегодня в американском Интернете практически нет современных текстов, ранее изданных на бумаге.

Российские реалии на сегодня таковы, что отвратительный "копирайт" все еще представляется здесь маленьким иностранным зверьком вроде Микки-Мауса, несмотря на подспудное и настойчивое внедрение в массовое сознание идеи о якобы необходимости соблюдения требований зверька.

Только традиционное отсутствие представления о существовании этого зверька сделало возможным создание библиотеки Мошкова. Многие из представленных в ней русских авторов прекрасно осведомлены о том, что их тексты находятся в свободном доступе, и ничего против этого не возражают. И это единственно нормальное человеческое поведение в данной ситуации. Электронная библиотека не может и никогда не будет конкурировать с бумажным изданием, сокращая авторские и издательские доходы от его продажи. Напротив, она может служить популяризатором, что и происходит в действительности с текстами писателей, не известных широкой публике.

Российское информационное пространство имеет шанс выработать совершенно иную этику соблюдения авторского права, коренным образом отличающуюся от косного американского "копирайта", этику, основанную на уважении к автору текста, а не к букве навязанных законов. Электронные библиотеки могут способствовать утверждению подобной традиции.


© Русский Журнал, 1998 russ@russ.ru
www.russ.ru www.russ.ru