Русский Журнал
СегодняОбзорыКолонкиПереводИздательства

Gateway | Невод | Интер(офф)вью | Бессрочная Ссылка | НасНет | ГлобусНет | Интер(акти)вью | Дурацкий Музей | Кафедра | Русская сеть: истории | Конец прекрасной эпохи
/ Net-культура / < Вы здесь
Слово "Х**" как тест навигационных систем Рунета
Дата публикации:  21 Декабря 2001

получить по E-mail получить по E-mail
версия для печати версия для печати

Залогом взаимного понимания является не сосание мятных таблеток, а умение говорить с собеседником на одном языке, даже поговорка есть соответствующая: договориться - значит "найти общий язык". Пока в мире общались исключительно люди, все было более-менее просто, хочешь понять иностранца - учи его язык, ему будет надо - он выучит.

Другое дело, когда в процесс стали вовлекаться машины. Ну-ка... "Pledge of mutual understanding is not сосание mint tablets, and skill to speak with the interlocutor in one language, even the saying is appropriate - to agree, means, "to find common language". While in the world people communicated exclusively, all was more - less simple, want to understand the foreigner - learn(teach) his(its) language, it will be necessary to it(him) - it(he) will teach(learn)".

И обратно: "Залог взаимного понимания - не сосание таблетки монетного двора(мяты), и навык говорить с собеседником на одном языке, даже высказывание соответствующее - чтобы согласиться, означает, "найти общий(обычный) язык". В то время как в мировых людях поддержал связь исключительно, все было более - менее просто, хотеть понять, что иностранец - учится (преподают) его (его) язык, это будет необходимо для этого (его) - это (он) преподаст (учатся)".

Да уж... "навык говорить с собеседником на одном языке" - это даже не таблетки монетного двора сосать, это, кажется, посложнее будет.

Еще интереснее ситуации, когда человеку необходимо достичь взаимопонимания не с другим человеком, а с электронной машиной, заставив ее сделать для себя что-то полезное. Роль толмача в таких переговорах традиционно выполняют программисты, и мир с помощью компьютеров мы видим таким, каким его впервые "увидели", а точнее создали разработчики программ.

Насколько удобен этот мир, лучше всего видно из практики работы поисковых машин и тематических каталогов. Сотни тысяч посетителей ежедневно ищут в Рунете какую-то информацию, пользуясь навигационными ресурсами. Процесс взаимодействия здесь ничем не отличается от традиционного общения: реплика пользователя - реплика поискового сервера, вопрос - ответ и т.д. То есть, с одной стороны, имеем менталитет и естественный язык пользователей (юзеров), с другой - менталитет разработчиков, выраженный языком программы.

Что может сделать с выраженной естественным языком мыслью программа автоматического перевода, мы уже видели. Ответы поисковиков на довольно большое количество вопросов (поисковых запросов) тоже еще далеки от совершенства. Но если идеал машины-переводчика очевиден - 100%-е совпадение возвратного перевода, то с критериями совершенства поисковых машин определенности нет. И именно в этом вопросе - что же считать за истину - проявляется различие мышления пользователей и разработчиков.

Цель разработчиков - обеспечить полноту и точность результатов поисковой машины.

Вот отрывок из описания методики определения релевантности поисковых машин Николая Харина и Игоря Ашманова (Рамблер):

    - - - -

    2. Параметры технической эффективности

    В общем случае найденные по запросу документы относятся к одной из двух категорий: одни соответствуют запросу (релевантны), другие запросу не соответствуют, то есть нерелевантны. Количество релевантных документов в выдаче и характеризует качество поиска, то есть техническую эффективность поисковой машины. Техническую эффективность поиска оценивают двумя параметрами - полнотой и точностью. Полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных. Точность поиска есть отношение количества найденных релевантных документов на полное количество найденных документов.

    Пример. Пусть по запросу найдено 50 документов. После просмотра всех этих документов пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показал, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем:

    полнота 30/100 = 0.3;

    точность 30/50 = 0.6.

    Нужно заметить, что релевантность относится к смыслу документа и к смыслу запроса (не всегда очевидному), поэтому релевантность - вещь субъективная и зависит от мнения пользователя о соответствии документа запросу. Тестирование должно сводить субъективность к минимуму за счет достаточно большой группы тестирующих, точной формальной методики и так далее.

    - - - -

Цель пользователя - получить точный ответ на свой вопрос. Перебрав n-ное количество документов, предложенных поисковой машиной, он остановится на каком-то одном документе, информация которого максимально удовлетворяет его ожиданиям. То есть вопрос "полноты" пользователя не волнует ни в коей мере; если нужная информация найдена в первом документе, в остальных уже нет надобности.

Вопрос точности, как совершенно справедливо заметил Н. Харин, "вещь субъективная и зависит от мнения пользователя о соответствии документа запросу", а запрос не всегда бывает очевидным. Замечу, что неочевидные, допускающие несколько альтернативных пониманий, формулировки поисковых запросов составляют не менее 75% от их общего количества. Только однословных - чуть меньше половины. Согласитесь, что запросы "компьютер", "Windows", "работа", "недвижимость" и т.п. без уточнения однозначно понять невозможно. Как бы это звучало в разговоре двух людей:

    - Windows.

    - Что - "windows"? Что ты спросить-то хочешь?..

Если исходить из предположения, что разработчикам "нужнее" понять пользователей своих продуктов, нежели наоборот, то первой задачей, которую необходимо решить программе поиска, является выяснение именно мнений пользователей по тому или иному поисковому запросу.

Допустим, задавая какой-то вопрос, часть пользователей имеет в виду "мнение А" или "ожидает информации А", другая часть ожидает информации Б, третья - В и так далее, пока весь спектр ожиданий не будет исчерпан. Как показывает практика, количество возможных ожиданий конечно и не так уж велико. Чем точнее поисковый запрос, тем меньше возможное количество точных ответов на него. Естественно, самое большое количество ожиданий разных ответов характерно для однословных запросов.

Допустим также, что в базе данных есть сотня ссылок, удовлетворяющих ожиданию А, пятьдесят - ожиданию Б и т.д. Очевидно, что если весь первый лист с результатами займут ответы А, то пользователи с иными ожиданиями останутся неудовлетворенными работой системы. Поэтому однотипные ответы каким-то образом должны быть сгруппированы, и не мешать ответам на иные возможные смыслы запроса.

Таким образом, когда в основу ставится, прежде всего, "полнота информационного предложения" - именно так лучше всего назвать свойство системы проявлять разнотипные релевантные ответы и группировать однотипные, - поисковый ресурс начинает удовлетворять ожиданиям большинства пользователей. Вряд ли можно сказать, что повысится его релевантность, определенная по методу Харина, но популярность повысится точно.

Существует еще одна - неофициальная - методика оценки навигационных ресурсов, которая, на мой взгляд, идеально подходит для оценки проявления спектра смыслового предложения. Авторство ее приписывают разработчику текущей версии самого известного рейтингующего каталога Рунета - Rambler▓s Top100 Алексею Тутубалину. Это так называемый метод четырех нажатий. Он прост и, соответственно, гениален: тестирующий вводит слово "*уй" в поле запроса, нажимает Enter, и оценивает результат. Соответственно, при тестировании по этому методу на больших выборках испытуемых, качество можно оценить подсчетом ответов на вопрос: нашли ли вы нужный ответ на первой странице с результатами поиска (т.е. в числе первых 10-15 ссылок). Или

Качество поиска = (количество положительных ответов / количество тестируемых) х 100%

Как показывает анализ частот поисковых запросов, метод Тутубалина активно и стихийно используется сетевиками, однословный запрос "*уй" - очень популярен. К сожалению, потенциальные тестеры, удовлетворив чувство информационного голода, не знают, куда сообщать о своих впечатлениях.

Буквально на днях в Рунете появился и тестируется новый навигационный ресурс, разработчики которого с самого начала поставили цель - реализовать вышеописанную модель: полнота смыслового предложения + небольшое количество ссылок по каждому из возможных ожиданий - каталог поисковых запросов "Нейрон". Описывать проект здесь нет возможности, для этого существует специальный раздел. Хочется только привести результаты теста Тутубалина на "Нейроне", ссылки на страницы опущены:

1 ╝ ХУ* - 1) член, пенис, мужской половой орган. В толковом словаре нецензурных слов есть 18 значений слова "х*й".

2 Как обезопасить свой ху* от болезней - советы дерматовенеролога // Описания венерических болезней и способов переноса инфекции. Советы пациентам. Адрес врача-венеролога и часы приема. Интернет-адрес психологической помощи. Юмор по теме.

3 *уй висит?.. Это называется "эректильная дисфункция". Очень хорошо помогает силденафил цитрат, по-простому, "Виагра". Встанет - информация здесь >>

4 Анатомия хуя (синонимы: половой член, пенис, фалдус, совокупительный орган мужчины) - Большая Энциклопедия Медицины на Айболит.Х1.Ру

5 Русский мат с Плуцером-Сарно // 19 значений, 9 подзначений, 9 оттенков значения, 23 оттенка употребления, 523 фразеологических статьи, в которых представлено 400 идиом и языковых клише и более 1000 фразеологически связанных значений слова "х*й".

6 Энциклопедия русского мата // "Умом Россию не понять. Аршином общим не измеришь. У ней особенная стать. Ее поймешь - и охуеешь."

7 Журнал ХУ* - произведение при сайте русской маргинальной культуры

8 "*уй" - это любимый запрос Алексея Тутубалина

9 Хотите купить х*й? Sex Shop "Интим".

10 Хотите посмотреть на члены? Галерея фотографий с гей-уклоном.

11 слово Ху* - употребляйте его правильно.

12 Один из последних синглов группы "Ногу свело"

Как видим, несмотря на определенную рекламную направленность некоторых ответов, что нисколько не умаляет их информационного содержания, результат гораздо лучше, чем полученные на Яндексе, Рамблере, Google и Апорте. Конечно, для столь популярного запроса перечисленными темами смысловой спектр еще не полностью исчерпан, но с развитием проекта результаты будут совершенствоваться.

Отвлечемся от тестирования и вернемся к вопросу, с которого начали разговор. Как вам, читателю, кажется, можно ли к приложенным результатам испытаний применить образное сравнение, сказав, что навигационная система (машина) в данном случае поняла человека? Или нет?..

P.S.

Протестировав "Нейрон" традиционным способом, Алексей Тутубалин усовершенствовал свою методику, введя в нее новый тест-запрос: "длинный лысый х*уй". Напрасно смеетесь, господа, данный тест поднимает новый, качественно иной пласт проблем, связанных с вопросами проверки наличия-отсутствия информации в Сети и ее информационного наполнения. О чем, надеюсь, мне еще удастся рассказать.


поставить закладкупоставить закладку
написать отзывнаписать отзыв


Предыдущие публикации:
Мирослав Немиров, Все о поэзии 80 /14.12/
Вольный стих. Восемнадцатый век. Высоцкий, Владимир.
Татьяна Мерсадыкова, Новояз точка ру. Серия первая. Юные годы творца /12.12/
"Настоящий джентльмен - это тот, кто кошку всегда называет кошкой, даже если он об нее споткнулся и упал". Знаете, как ее называет деревенский дед? Не скажу - редактор вырежет.
Дмитрий Эссеринг, Тексты о гипертексте: 12 /11.12/
Можно провести интернет в каждый африканский дом. Можно действительно создать мировое сообщество пользователей. Но разве в этом заключается задача информационной экспансии?
Ольга Горюнова, Свободный софт в России: будущее и настоящее /10.12/
Что монополии, занявшиеся свободным ПО, могут с ним сделать, непонятно. Вероятно, что-то страшное, вроде портрета Че Гевары на тесно обтягивающих формы юных бессмысленных девушек майках.
Татьяна Мерсадыкова, Куда ведет дорога в никуда? /09.12/
Рассуждения о пользе интернет-зависимости и киноповесть в пяти картинах.
предыдущая в начало следующая
Андрей Иванов
Андрей
ИВАНОВ
neiron@bancorp.ru
URL

Поиск
 
 искать:

архив колонки: