Русский Журнал / Net-культура /
www.russ.ru/netcult/20020131_mersadykova.html

Портрет в палитре слов
Татьяна Мерсадыкова

Дата публикации:  31 Января 2002

У меня почти нет сомнений, что хижина дяди Тима будет построена. Но мы-то живем сегодня. И не в причесаном XML-вебе ищем нужную нам информацию, а в родном лохматом HTML. Так почему бы не начать с себя? С себя - ищущего, спрашивающего. На каком языке он хочет формулировать свой вопрос? На языке запросов моего любимого Яндекса? Нет, на нем он формулирует, а хочет - на своем родном. При этом втайне надеется, что в невнятном его бормотании кто-нибудь прочтет больше смысла, чем он сам. Размечтался? Не скажите...

Человеку ищущему нужно найти то, что он ищет. Он решает некую задачу. Задача - это часть проблемы, которая занимает свое место под солнцем - как общим, так и индивидуальным. Перед тем, как идти за информацией, он (в идеале) должен ответить на следующие 4 вопроса:

1. Зачем решать проблему? Может быть, она уже решена или не существует.
2. Как формулируется проблема?
Здесь же хорошо бы разбить проблему на задачи, но на это мало кто способен. Пусть будет хотя бы:
3. Как формулируется конкретная задача и зачем она нужна для решения данной проблемы?
4. Какая информация и зачем нужна для решения вопроса?

И только потом искать ответ на пятый:
5. А где бы мне найти эту информацию?

Много вы таких сознательных встречали? Познакомьте...

До нашей эры (Интернета)

Вообразим себе клиента Юру, озабоченного последним вопросом. Вариант первый: он пришел в библиотеку. Перед ним гигантские шкафы с миллионом книг. Куда податься? Конечно же, в каталог. Там заботливыми руками библиотекарей все книги разнесены по темам, тематикам, рубрикам и подрубрикам. Это - образ того, что предлагает сегодня дядя Тим. Квалификация (наличие ответов на предыдущие вопросы) здесь требуется от Юры: он должен знать, в какой ящик ему залезть. Считать сие недостатком иерархической классификации неправедно. То, что я не знаю немецкого и не могу читать Гете в подлиннике, - это мой недостаток.

У классификации есть порок изначальный. Существует объект по имени Вася. У него есть свойства. Их, вообще говоря, бесконечно много. Допустим, мы сформулировали (знаем) 10. Мы даже не утверждаем, что они основные, самые главные. Они нам просто известны. По восьми из них мы отнесли его к ячейке классификации под названием "козел". У нее тоже есть свойства. Если классификация математически строгая (а таковая существует только для узких задач на конечном множестве объектов), то их конечное число, допустим, тоже 10. Так вот действие сие есть ложь по двум причинам:
- мы лишили объект двух известных и многих неизвестных свойств;
- мы приписали ему (по крайней мере) 2 лишних.
Получаем, что к ячейке "козел" относится... уже не Вася.

Однако мы не про Васю, а про Юру, поэтому вернемся к нашим баранам.

Вариант второй (ЯГ). Юра приходит к умному эксперту Яну Гурьяновичу (теперь он Яндекс-Гуру называется). Если Юра знает ответ на вопрос ╧4, то ЯГ ему, конечно, поможет. НО! Эта помощь может оказаться неполноценной, ежели:
ЯГ1 - ЯГ не обладает достаточным кругозором. ЯГ должен, во-первых, осознавать сей факт и не делать морду, как будто знает все. Во-вторых, должен иметь достаточно знакомых своего уровня (ЯГА, ЯГБ, ...) и быть хорошо осведомленным о кругозоре оных.
ЯГ2 - Юра отвечает на 4 вопрос, но неверно, поскольку не знает толком ответа на третий. Поэтому умный ЯГ должен задать ему 3 вопрос. Услышав детский лепет, он задает вопрос ╧2.
Если ответ нормальный, то ему остается:
ЯГ2-1 - послать Юру еще подумать или поучиться;
ЯГ2-2 - самому сформулировать задачу и фактически выполнить за Юру его работу. А ЯГ не за это зарплату платят.

ЯГ3. Если ответ на 2 вопрос невразумительный, то ЯГ задает первый - только для того, чтобы определить куда посылать Юру: к черту, к священнику, к психиатру - или учиться на философский факультет.

Вариант третий - Юра приходит на Дворцовую площадь. Не на нынешнюю, снегом грязным заваленную, а на многолюдную - этак начала 90-х.
- Народ! Кто что знает новенького о Казимире Прунскене?
Народ отнюдь не безмолвствует:
- Не Казимира, Казимера.
- Завтра в Педе будет тусовка - из Литвы Янис приедет.
- В гробу я ее видал! Хочет экономику - неча Горбача мешать с дерьмом и на наших наезжать.
- Вот у меня газетка есть, сударь, поглядите этот материал.
- Слушай, кореш, на пиво, выпей и брось ты эту политику - до добра не доведет. Я тут намедни с такой телкой познакомился...
- Я вчера у госпожи Прунскене брала интервью по телефону, она сказала, что выступит в четверг по "Голосу" и разъяснит ситуацию.
- А где его прочитать-то можно?!!!
- Будет в "Курьере", но еще не опубликовано.

А в сторонке тихо покуривает ЯГ в шапке-ушанке довоенного образца. Когда шум стихает, он берет Юру под локоток:
- Молодой человек, пойдемте, я вам свою подборочку покажу, и вы наверняка найдете ответы на все ваши вопросы. Может быть, самых свежих материалов там и нет, но тенденции, в целом, ясны...

Наша эра

Ностальгия - ностальгией, а сегодня дела обстоят куда как лучше! К услугам Юры глубоко рубрицированные каталоги и разнообразные поисковые системы. К первым ему имеет смысл обращаться, если он хочет получить не ответ на конкретный вопрос, а погрузиться в некую область знаний, название которой он хоть и смутно, но знает. ЯГ не получает зарплаты, не капризен и всегда готов помочь. Ему точно известен его кругозор, он может раскланиваться с любым числом ЯГА, ЯГБ, ... ЯГЯ, хорошо представляя себе, кто чего стоит и кто чего знает. Таким образом, мы полностью перекрываем варианты ЯГ1 и ЯГ2-2. ЯГ2-1 вообще отпадает. Это уже не мало! Но ЯГ2 и ЯГ3 пока не работают. Как (на каком языке) задать вопрос более высокого уровня?

Если Юра предпочитает разговаривать только на своем родном языке, ему никто не мешает пойти на форум. Погода там всяко лучше, чем обычно бывает на Дворцовой площади. Только вот будет ли там та самая журналистка Леночка - или она опять со своими поэтами неформализованными тусуется... Ему скажут много интересного, коллективный разум поможет сформулировать задачу, а заодно и понять: Казимера ему сейчас нужна - или телка под пиво?

Придуман неплохой способ первого допроса Юры: ключевые слова. Вводит он эти слова в некапризные окошки всегда готовых помочь поисковых систем. Вводит по одному, в сочетаниях, может изучить язык расширенного поиска и формирования сложных запросов... И выдается ему за это столько информации, что количество переходит в качество: информацией она быть перестает. Но это не страшно, поскольку поисковые системы борются друг с другом и с самими собой за релевантность. И PageRank изобрели, и как индекс сокращать придумали. Релевантность чему? Запросу. Тому самому: либо однословному, либо на предложенном системой языке сформулированному и из 2-3 слов состоящему. Может быть, не бороться, а прислушаться к Юре, к естественному его языку?

Если он - человек пишущий, то лучше осознает задачу, когда пишет. Пусть напишет некий текст. Это могут быть тезисы статьи, вопросы экзамена, изложение голубой мечты. Текст пишется не для читателя, поэтому не надо его красивыми цитатами, анекдотами и стихами украшать. Употреблять синонимы тоже не следует. Когда я пишу статью о Набокове, для улучшения стиля буду называть главного героя то Набоковым, то Владимиром Владимировичем, то В.В., то мэтром, то классиком. Мастер в своей библиотеке сетует, что поступая так, мы "балансируем на грани забвения и дурного вкуса". Тех, кто забвения боится больше, Сегалович называет оптимизаторами и не любит почти как спаммеров, но немножко меньше, чем хакеров. Оно и понятно, что не любит - от отсутствия синонимов текст не становится более информативным, а за релевантностью пролезает без очереди, как инвалид стиля.

Но в данном случае Юра именно так и должен поступать. Он пишет не для читателя, а для внимательного благосклонного "слушателя" - поисковика. Текст должен быть достаточно длинным, чтобы некоторые слова встретились не один раз - иначе затея не имеет смысла. "Слушатель" индексирует Юрин "портрет задачи в палитре слов": выделяет словоформы, выкидывает предлоги и союзы, оставляет каждой словоформе ее порядковый номер и частоту употребления. Подобных портретов веб-страниц у него - целая галерея. Остается только сравнить и выделить подходящие. Сравнение происходит не по 1-2 точкам, как сейчас, а по "профилю". Таким образом, мы получаем ответ на вопрос: какой информацией можно обогатить данный текст с помощью Интернета? Не всего, конечно, а той его части, которая написана на русском языке и проиндексирована в поисковике. Но ведь обычно в этом кругу мы и ищем. Если смотреть на проблему шире, то Юра может предложить "слушателю" "портрет" не задачи, а свой собственный, не поленившись загнать в него представительную выборку своих авторских текстов. Таким образом он получит ответ на еще более интересный вопрос...

Если вам кажется, что вышеизложенное - очередной проект вечного двигателя, приведу два возражения.
1. Успешно работающий ЛингвоАнализатор, который позволяет определить автора по предложенному тексту.
2. Тенденция. Поисковики и так "прислушиваются" к пользователю. Lycos, WordTracker и Google регулярно публикуют списки наиболее популярных запросов. Яндекс считает НИНИ-индекс и с улыбкой наблюдает за тем, на каком расстоянии от слова "президент" употребляется в запросах слово "прикольный". Даже совсем юный проект "Ленты.ру" внимательно отслеживает статистику интереса к новостям.

Так что сие, во-первых, технически возможно, а во-вторых, вполне "в духе". Полезно, правда, только графоманам (я имею в виду не тех, кто плохо пишет, а тех, кто мыслит, когда пишет), но панацеи вообще встречаются нечасто.