Русский Журнал
СегодняОбзорыКолонкиПереводИздательства

Gateway | Невод | Интер(офф)вью | Бессрочная Ссылка | НасНет | ГлобусНет | Интер(акти)вью | Дурацкий Музей | Кафедра | Русская сеть: истории | Конец прекрасной эпохи
/ Net-культура / Gateway < Вы здесь
GoogleNews - орудие демократии
Дата публикации:  13 Октября 2003

получить по E-mail получить по E-mail
версия для печати версия для печати

Мы представляем отредактированную расшифровку серии телефонных интервью и последовавшей за ними электронной переписки с создателем GoogleNews и ведущим исследователем Google Inc. Кришной Бхаратом (в сокращении).

Перевод Линор Горалик

Online Journalism Review: Начнем с возгласа "Эврика!", - то есть с той минуты, когда ты понял: вот оно, то самое. Кришна Бхарат: С новостями я и раньше экспериментировал. Заканчивая университет, я заинтересовался отбором и персонализацией потока онлайновых новостей, так что некоторый опыт обращения с новостным контентом и его сортировкой у меня уже имелся.

OJR: Ты имеешь в виду "Хроники Кракатау"?
К.Б.: Именно.
OJR: Объясни-ка это. Ведь в то время для большинства людей слово ╚Java╩ ассоциировалось с сортом кофе.
К.Б.: Я загорелся возможностью сделать веб-контент динамическим. Начал отлавливать основные сообщения Associated Press и пытался уложить их в некий формат, ориентированный на склонности человека, попадающего на новостной сайт. Если человек тратил достаточно времени на прочтение статьи определенного содержания, мой механизм это запоминал, и на следующий день газета выглядела иначе. Содержание менялось в соответствии читательскими нравами, но в то же время я ничего не навязывал: чтобы сайт превратится из очень персонифицированного в очень безличный, достаточно было лишь изменить настройки.

OJR: То есть у тебя уже был опыт стыковки новостных выборок с людскими предпочтениями и интересами для создания динамичной газеты. Но с GoogleNews ты пошел другим путем.
К.Б.: Я пошел другим путем, потому что в этот раз думал не о пользователе. Анализируя новостной контент разных источников, я пытался определить общие черты самых разнообразных материалов. Описываются ли в них одни и те же события? Если да √ как это можно установить? Что делать, если в материалах присутствуют одни и те же слова, но излагаются разные точки зрения или используются разные подходы, - например, когда одна статья √ техническая, а другая √ нет, одна рассчитана на широкий круг читателей, а другая ориентирована на бизнесменов? Все эти задачи требовали отдельных решений. Ты помнишь, что мы имели в самом начале?
OJR: Я - да, но кто-то из читателей, возможно, нет.
К.Б.: После 11 Сентября , когда все газеты только и писали о том, кто, где, что и как, существовал один грандиозный вопрос: ╚Почему?╩ Почему это произошло? будет дальше? Множество людей теряло множество часов в поисках новостей, - и я тоже. Все серверы тормозили┘ Так что изначально я просто пытался создать инструмент, чтобы автоматизировать это дело: вот сюжет, вот новый его поворот, а сейчас мы найдем все статьи о развитии событий. (┘) Я начинал с двадцати сайтов; потом список вырос до двухсот. В первой демоверсии были двадцать ведущих СМИ, и у меня была такая штука, которая каждый час просматривала весь контент в поисках обновлений.

OJR: И как же эта штука разбиралась в контенте?
К.Б.: Существует целая отрасль исследований - "теория сбора информации"; она занимается анализом текста чтобы определить, какие документы связаны с запросом, какие документы связаны другими документами. Так что большая часть работы носила сугубо технический характер. Я интуитивно разбирал формат каждого новостного портала, чтобы научиться сводить разнородные материалы.
(...)
Обычно люди приходят на Google с определенным запросом. Имея дело с новостями, было бы глупо ждать запроса - потому что это новости. Они новые. Люди могут не знать, что такого важного и интересного произошло, и задача оповестить их об этом лежит, собственно, на нас.

OJR: Проект GoogleNews развивался просто молниеносно.
К.Б.: Это вообще типично для Google. Наша компания молода душой.

OJR: На каком этапе ты начал задумываться над превращением личного инструмента в потенциальный сервис Google?
К.Б.: У нас была демо-версия для внутреннего пользования, она обновлялась раз в час, и народ в офисе отнесся к ней очень серьезно. А кто-то сказал: "Слушай, если бы ты еще разбил новости по категориям, это было бы вроде газеты". Сделать это оказалось несложно.

OJR: Что для тебя означает "новость"?
К.Б.: Честно говоря, я не слишком об этом задумывался, - репортаж и комментарий о текущих событиях из надежного источника? Знаю, это очень широкое определение. Думаю, что источник новостей может считаться таковым, если он признан некой частью земного шара. Кто мы такие, чтобы заявлять: "Это не новости!"? Мое определение "новостей" и "новостного источника" - это, конечно, мое личное мнение, а не позиция GoogleNews или Google Inc. У GoogleNews есть команда рецензентов, решающих, какие источники мы будем обшаривать. Я обеспечиваю работу системы, но отбор не провожу.

OJR: Можно ли отследить, как событие набирает критическую массу "интересности" и становится новостью?
К.Б.: Возьмем эпидемию SARS. Когда она концентрировалась в одном лишь Гонконге, с новостной точки зрения это был крошечный сюжет. Когда болезнь появилась в Канаде, все стало гораздо серьезнее. А когда в аэропорту Сан-Хозе самолет поставили в карантин, эпидемия превратилась в мегаисторию┘ Мы стараемся показать как можно более цельнуюу картину. Скажем, в период военных репортажей газеты не слишком много писали о SARS, но GoogleNews достаточно разнообразия, чтобы найти материалы по темам вроде этой.

OJR: Как в поток новостей попадают пресс-релизы?
К.Б.: Мы, конечно, не рассматриваем пресс-релизы как источник новостей. Но с самого начала мы строили поиск на вере в то, что информация должна быть доступна всем.
Мы, как музыкальный инструмент, "настраиваемся" в тон журналистам. Но склоняемся скорее к тому, чтобы прислушиваться к ним, а не тупо следовать правилам, которые кто-то придумал. Я видел кучу статей с дословным пересказом пресс-релизов. Мы что, должны ли мы ждать несколько часов, пока кто-нибудь напишет "новость"? Или мы все же должны - особенно если речь идет о бизнесе - дать людям информацию как можно быстрей?

На наших страницах или на страницах поиска по категориям никаких пресс-релизов нет. Наши редакторы подходят к этому вопросу ответственно, - потому что мы лишь задаем направление вашего поиска. Мы никогда не разместим пресс-релизы на новостных страницах и вообще не сделаем ничего, что заставило бы усомниться в нашей объективности. Мы даже рекламу не размещаем. А используем пресс-релизы только оттого, что считаем их полезными. Если среди прочих результатов поиска есть пресс-релиз, то в распоряжении пользователя окажутся те же факты, что у репортера, который пишет о том же событии.

OJR: Другая ваша проблема - настороженное отношение журналистов к GoogleNews. Иногда кажется, что люди даже рады ошибкам на вашем сайте- скажем, когда картинка не подходит к тексту или когда пресс-релиз оказывается вверху новостной страницы. А особенно радуются газетчики: "Вот видите, робот не может заменить живого редактора┘"
К.Б.: Я замечал, да. Если бы эти накладки происходили постоянно, то эти люди были бы совершенно правы. Но если так случается в одном выпуске из ста, то не стоит выдавать исключение за правило. Такова одна сторона проблемы. Другая сторона заключается в том, что они, по-моему, воспринимают все слишком лично √ а ведь мы никого не хотим задевать.
OJR: Я думаю, они никак не смирятся с той мыслью, что в один прекрасный день их работа достанется компьютеру.
К.Б.: Если бы не сами редакторы, такая мысль вообще бы не возникла. Нас втянули в спор, которого мы совершенно не хотели.

OJR: Редактору-человеку не под силу делать то, что делаете вы.
К.Б.: Потому что мы получаем около 100000 статей в день. Человек столько не прочтет. Есть люди, пытающиеся компилировать медийную информацию по той или иной теме и писать по ней отчеты. Журналисты занимаются этим постоянно - и очень успешно. Но представьте себе, что все это нужно проделывать со всеми сюжетами мира √ и постоянно. Но мы-то хотим обеспечить не только полноту информации, но и скорость ее получения.

OJR: И где же можно посмотреть список всех ваших ресурсов?
К.Б.: Это коммерческая тайна, и ее мы храним в секрете. Мы никогда не публиковали этот список.

OJR: Я всегда считал Google дополнительным инструментом, этаким способом добавить еще несколько голосов к общему хору, добыть еще информации и направить публику туда, куда она бы и не подумала прийти сама.
К.Б.: Она может даже не знать о существовании того или иного сайта.
OJR: Или того, что их есть особая точка зрения на сюжет. В этом плюс GoogleNews. А вот объем информации √ это уже минус. Иногда мне кажется, что при нашей привычке использовать Google для получения ранжированных данных отсутствие того же принципа в GoogleNews должно несколько раздражать.
К.Б.: Мы и здесь стараемся располагать материалы в порядке важности, но по другим критериям. В расчет принимаются степень популярности источника, соответствие общего контекста и дату публикации. Иногда местная газета публикует материал первой, а потом за ней подтягиваются все остальные.
(...)
Есть предел тому, насколько мы можем позволить себе давать местным материалам более высокие приоритеты. Представьте себе, что мы поступали бы так со всеми сюжетами по Ираку √ это было бы ужасно. Если бы у нас был редактор, разбирающийся с каждой конкретной новостью, он бы каждый раз делал правильный выбор. Но нам нужно балансировать между столькими темами, что иногда случаются ошибки. Мы просматриваем сайт, чтобы выяснить, все ли сделано правильно - и зачастую все оказывается именно так.

OJR: Еще один аспект: пользователь GoogleNews может столкнуться с тем, что он получает далеко не всю возможную информацию, сколь бы большим количеством источников вы не пользовались. Ваш сайт действует выборочно. Вы не стремитесь использовать все возможные новостные сайты, и иногда пользователь может ждать присутствия тех или иных публикаций в общем потоке - а их там нет.
К.Б.: Мы можем просматривать только те сайты, которые позволяют нам это делать. Любой поиск по свежему новостному контенту может наткнуться на препятствия, - например, если сайт запрещает роботам доступ к материалам или если такой доступ требует регистрации. Это ключевая проблема, ведь на контенте делают деньги. И новостники сами должны решить, каким образом мы могли бы поставлять им траффик. У "Нью-Йорк Таймс" есть неплохое решение: они позволяют нам обрабатывать их контент и направлять траффик на первую страницу. Если люди хотят читать дальше, они должны зарегистрироваться, - и они регистрируются, если контент им действительно нравится. Мне кажется, что это прекрасная схема.

OJR: Задает ли кто-нибудь вопрос вроде: "Как вывести нашу публикацию на первые места?"
К.Б.: Нет, потому что первые места особо и не определишь - они меняются каждые 15 минут. С другой стороны, нас часто спрашивают, почему мы освещаем не столько источников, сколько хотелось бы. Обычно мы говорим, что освещаем ровно столько же, сколько освещают другие похожие ресурсы, и не меняем результаты ранжирования, но если проблема носит более серьезный характер - например, если нам не удается просматривать контент того или иного сайта - то мы, конечно, принимаем меры.

OJR: Каков процент местных сайтов и иностранных?
К.Б.: Google - международная поисковая машина. Я не смогу назвать цифры навскидку, но количество американских сайтов огромно, - думаю, процентов пятьдесят. Есть очень серьезный крен в сторону англоговорящих стран, что несколько нарушает равновесие, поскольку множество других источников публикует принципиально важные сюжеты.
OJR: Что возвращает нас к теме объемов информации. Мы говорили о том, как материалы попадают на вершину списка. Я же несколько раз слышал разговоры о повторяющихся публикациях, о дублирующих друг друга материалах. Что вы делаете, если три страницы представляют собой вариации одного и того же репортажа от AP?
К.Б.: Мы стараемся не допускать дублирования на главной странице. На странице результатов поиска, по идее, первыми должны идти уникальные материалы, а затем дубли. Но на главной странице мы стараемся быть чуть избирательнее. Пользователь видит повторы только после просмотра всех найденных нами уникальных репортажей.

OJR: То, что мы видим на странице результатов поиска новостей, отчасти зависит от и того, в какое время мы их ищем?
К.Б.: Если событие только что произошло, то мы, возможно, и не покажем вам ничего, кроме повторов.

OJR: Когда вы собираетесь - и собираетесь ли - дать людям возможность персонализации GoogleNews?
К.Б.: Прекрасный вопрос. Когда-нибудь мы этим займемся, но сейчас у нас нет свободных рук. Люди действительно просят ввести персонализацию, но пока что у нас нет никаких конкретных планов.
OJR: Какой будет эта персонализация? Каковы ее плюсы?
К.Б.: Плюсы в том, что вы сможете сказать: "Я люблю баскетбол и не люблю крикет" - и читать только новости баскетбола. В крайних изводах такой подход позволяет вам спрятаться в собственной раковине и видеть только то, что вы захотите увидеть. Но между подобной крайностью и той точкой, в которой мы находимся сейчас, существует пространство маневра. Да разные варианты есть. Что люди любят персонализировать? - Местные новости, определенный вид спорта, знаменитостей, те или иные компании или отрасли. Какие-то поисковые запросы, которые они привыкли запускать, или просто все вместе.Но сейчас мы ничего не планируем..

OJR: Может ли случиться, что GoogleNews навсегда останется бетой?
К.Б.: Нет. У понятия "бета" есть определенный смысл. "Бета" означает, что может поменяться структура сайта, что мы прикидываем дизайн, решаем инженерные задачи. Пройдет время и наши движки обретут достаточную стабильность, мы до конца определимся с моделями поиска и перестанем быть ╚бетой╩. Но это не значит, что мы перестанем вносить изменения. Мы продолжаем развиваться.

OJR: Кто ваши конкуренты?
К.Б.: Другие поисковые машины, работающие с новостями и по новостям. СМИ мы не считаем своими конкурентами - наша деятельность дополняет друг друга.
OJR: А как насчет порталов?
К.Б.: Мы поставляем им немалый траффик. Они скорей наши партнеры, чем конкуренты.
OJR: Если бы вам предложили плату за чье-то постоянное присутствие в GoogleNews или партнерство на коммерческой основе...
К.Б.: ...это повредило бы нашей объективности.

OJR: Важно ли быть частью финансовой модели, вырвавшейся вперед?
К.Б.: Лично для меня?
OJR: Как для творческого человека.
К.Б.: Я хочу, чтобы GoogleNews был орудием демократии. Я хочу, чтобы мы были честными посредниками, и чтобы газеты, представленные на нашем сайте, получали от нас траффик┘ Человечество не знало столь противоречивых времен, как наши, и с этой точки зрения новостные ресурсы очень важны. Потому что люди жаждут новостей. В GoogleNews разнообразие в освещении новостей разными источниками видней, чем где-либо еще. Эта разноголосица отражает разнообразие мнений во всем мире. Даже если вы не согласны с одним из этих мнений - мы все равно предоставляем вам оба, - мнение большинства и мнение меньшинства. Даже в самой компании Google есть люди с разными политическими взглядами. Мы с самого начала были настолько преданы идее объективности, что не смогли бы принять чью-то сторону, даже если бы захотели. Мне кажется, что к какому бы политическому лагерю человек ни принадлежал, ему важно знать мнение другой стороны. То, с чем вы не согласны, все же расширяет ваш кругозор. Всегда хорошо знать, что думают оппоненты. Вы сможете прочесть и правых, и левых. Честно говоря, робот не знает разницы между правыми и левыми - и хорошо, что не знает.
OJR: Ты бы мог его научить его понимать эту разницу, если бы захотел.
К.Б.: Да, но наш код уже написан и существует в открытом доступе. И мы очень гордимся тем, что делаем.

OJR: Ты начал с создания личного инструмента-помощника. Что ты чувствуешь сейчас, когда в трудные времена люди приходят на твой сайт и получают то, в чем нуждаются?
К.Б.: Так это же чудесно. Я полностью удовлетворен. Это как если бы нам удалось упорядочить разноголосицу и хаос. Люди выигрывают, когда им удается понять точку зрения друг друга. И я считаю, что мы помогаем делу демократии.


поставить закладкупоставить закладку
написать отзывнаписать отзыв


Предыдущие публикации:
Джон Ф. Барнс (John F. Burns), Наш бизнес коррумпирован /06.10/
Наш бизнес коррумпирован. Нам нужно вернуться к истокам. Эту войну необходимо изучать и обсуждать. Частью этой войны стало, на мой взгляд, настоящее бегство от ответственности.
Стивен Вайнберг (Steven Weinberg), Спроектированная Вселенная? /29.09/
Некоторые физики склонны утверждать, что значения определенных природных констант удивительным образом подогнаны так, чтобы создалась возможность зарождения жизни. По их мнению, такая "подгонка" может быть объяснена только вмешательством "конструктора" с его особым отношением к теме жизни.
Ричард Форно (Richard Forno), Хайтековский героин /22.09/
Технологии вызывают привыкание, как азартные игры и героин. Мы чувствуем себя не в своей тарелке, случись нам отстать от последних новшеств. Корпорациям это на руку, потому что зависимость начинает формироваться сразу, едва мы принимаем их правила игры и начинаем пользоваться их продуктами и услугами.
Грегори Бенфорд (Gregory Benford), Троянский конь фантастики /15.09/
Литература времени великих перемен, вызванных технологиями, - научная фантастика знакомит с религией ту часть читающей публики, которая редко ходит в церковь.
Как поисковые машины трактуют Интернет /07.09/
Поисковые машины создаются людьми и в силу этого обнаруживают некоторую предвзятость. В частности, поскольку поисковые машины - не только информационные инструменты, но и культурные артефакты.
предыдущая в начало следующая
Кришна Бхарат (Krishna Bharat)
Кришна Бхарат
(KRISHNA BHARAT)

Поиск
 
 искать:

архив колонки:





Рассылка раздела 'Gateway' на Subscribe.ru