Русский Журнал
/ Net-культура / www.russ.ru/netcult/20020131_mersadykova.html |
Портрет в палитре слов Татьяна Мерсадыкова Дата публикации: 31 Января 2002 У меня почти нет сомнений, что хижина дяди Тима будет построена. Но мы-то живем сегодня. И не в причесаном XML-вебе ищем нужную нам информацию, а в родном лохматом HTML. Так почему бы не начать с себя? С себя - ищущего, спрашивающего. На каком языке он хочет формулировать свой вопрос? На языке запросов моего любимого Яндекса? Нет, на нем он формулирует, а хочет - на своем родном. При этом втайне надеется, что в невнятном его бормотании кто-нибудь прочтет больше смысла, чем он сам. Размечтался? Не скажите... Человеку ищущему нужно найти то, что он ищет. Он решает некую задачу. Задача - это часть проблемы, которая занимает свое место под солнцем - как общим, так и индивидуальным. Перед тем, как идти за информацией, он (в идеале) должен ответить на следующие 4 вопроса: 1. Зачем решать проблему? Может быть, она уже решена или не существует. И только потом искать ответ на пятый: Много вы таких сознательных встречали? Познакомьте... До нашей эры (Интернета) Вообразим себе клиента Юру, озабоченного последним вопросом. Вариант первый: он пришел в библиотеку. Перед ним гигантские шкафы с миллионом книг. Куда податься? Конечно же, в каталог. Там заботливыми руками библиотекарей все книги разнесены по темам, тематикам, рубрикам и подрубрикам. Это - образ того, что предлагает сегодня дядя Тим. Квалификация (наличие ответов на предыдущие вопросы) здесь требуется от Юры: он должен знать, в какой ящик ему залезть. Считать сие недостатком иерархической классификации неправедно. То, что я не знаю немецкого и не могу читать Гете в подлиннике, - это мой недостаток. У классификации есть порок изначальный. Существует объект по имени Вася. У него есть свойства. Их, вообще говоря, бесконечно много. Допустим, мы сформулировали (знаем) 10. Мы даже не утверждаем, что они основные, самые главные. Они нам просто известны. По восьми из них мы отнесли его к ячейке классификации под названием "козел". У нее тоже есть свойства. Если классификация математически строгая (а таковая существует только для узких задач на конечном множестве объектов), то их конечное число, допустим, тоже 10. Так вот действие сие есть ложь по двум причинам: Однако мы не про Васю, а про Юру, поэтому вернемся к нашим баранам. Вариант второй (ЯГ). Юра приходит к умному эксперту Яну Гурьяновичу (теперь он Яндекс-Гуру называется). Если Юра знает ответ на вопрос ╧4, то ЯГ ему, конечно, поможет. НО! Эта помощь может оказаться неполноценной, ежели: ЯГ3. Если ответ на 2 вопрос невразумительный, то ЯГ задает первый - только для того, чтобы определить куда посылать Юру: к черту, к священнику, к психиатру - или учиться на философский факультет. Вариант третий - Юра приходит на Дворцовую площадь. Не на нынешнюю, снегом грязным
заваленную, а на многолюдную - этак начала 90-х. А в сторонке тихо покуривает ЯГ в шапке-ушанке довоенного образца. Когда шум стихает, он берет Юру под локоток: Наша эра Ностальгия - ностальгией, а сегодня дела обстоят куда как лучше! К услугам Юры глубоко рубрицированные каталоги и разнообразные поисковые системы. К первым ему имеет смысл обращаться, если он хочет получить не ответ на конкретный вопрос, а погрузиться в некую область знаний, название которой он хоть и смутно, но знает. ЯГ не получает зарплаты, не капризен и всегда готов помочь. Ему точно известен его кругозор, он может раскланиваться с любым числом ЯГА, ЯГБ, ... ЯГЯ, хорошо представляя себе, кто чего стоит и кто чего знает. Таким образом, мы полностью перекрываем варианты ЯГ1 и ЯГ2-2. ЯГ2-1 вообще отпадает. Это уже не мало! Но ЯГ2 и ЯГ3 пока не работают. Как (на каком языке) задать вопрос более высокого уровня? Если Юра предпочитает разговаривать только на своем родном языке, ему никто не мешает пойти на форум. Погода там всяко лучше, чем обычно бывает на Дворцовой площади. Только вот будет ли там та самая журналистка Леночка - или она опять со своими поэтами неформализованными тусуется... Ему скажут много интересного, коллективный разум поможет сформулировать задачу, а заодно и понять: Казимера ему сейчас нужна - или телка под пиво? Придуман неплохой способ первого допроса Юры: ключевые слова. Вводит он эти слова в некапризные окошки всегда готовых помочь поисковых систем. Вводит по одному, в сочетаниях, может изучить язык расширенного поиска и формирования сложных запросов... И выдается ему за это столько информации, что количество переходит в качество: информацией она быть перестает. Но это не страшно, поскольку поисковые системы борются друг с другом и с самими собой за релевантность. И PageRank изобрели, и как индекс сокращать придумали. Релевантность чему? Запросу. Тому самому: либо однословному, либо на предложенном системой языке сформулированному и из 2-3 слов состоящему. Может быть, не бороться, а прислушаться к Юре, к естественному его языку? Если он - человек пишущий, то лучше осознает задачу, когда пишет. Пусть напишет некий текст. Это могут быть тезисы статьи, вопросы экзамена, изложение голубой мечты. Текст пишется не для читателя, поэтому не надо его красивыми цитатами, анекдотами и стихами украшать. Употреблять синонимы тоже не следует. Когда я пишу статью о Набокове, для улучшения стиля буду называть главного героя то Набоковым, то Владимиром Владимировичем, то В.В., то мэтром, то классиком. Мастер в своей библиотеке сетует, что поступая так, мы "балансируем на грани забвения и дурного вкуса". Тех, кто забвения боится больше, Сегалович называет оптимизаторами и не любит почти как спаммеров, но немножко меньше, чем хакеров. Оно и понятно, что не любит - от отсутствия синонимов текст не становится более информативным, а за релевантностью пролезает без очереди, как инвалид стиля. Но в данном случае Юра именно так и должен поступать. Он пишет не для читателя, а для внимательного благосклонного "слушателя" - поисковика. Текст должен быть достаточно длинным, чтобы некоторые слова встретились не один раз - иначе затея не имеет смысла. "Слушатель" индексирует Юрин "портрет задачи в палитре слов": выделяет словоформы, выкидывает предлоги и союзы, оставляет каждой словоформе ее порядковый номер и частоту употребления. Подобных портретов веб-страниц у него - целая галерея. Остается только сравнить и выделить подходящие. Сравнение происходит не по 1-2 точкам, как сейчас, а по "профилю". Таким образом, мы получаем ответ на вопрос: какой информацией можно обогатить данный текст с помощью Интернета? Не всего, конечно, а той его части, которая написана на русском языке и проиндексирована в поисковике. Но ведь обычно в этом кругу мы и ищем. Если смотреть на проблему шире, то Юра может предложить "слушателю" "портрет" не задачи, а свой собственный, не поленившись загнать в него представительную выборку своих авторских текстов. Таким образом он получит ответ на еще более интересный вопрос... Если вам кажется, что вышеизложенное - очередной проект вечного двигателя, приведу два возражения. Так что сие, во-первых, технически возможно, а во-вторых, вполне "в духе". Полезно, правда, только графоманам (я имею в виду не тех, кто плохо пишет, а тех, кто мыслит, когда пишет), но панацеи вообще встречаются нечасто. |