Выбирая гипертекст

За последние десять лет количество информации, доступной онлайн, увеличилось в геометрической прогрессии. На сегодняшний день насчитывается 15 млрд веб-страниц, не говоря об изображениях, музыке, видео и других медиаформах, активно распространяемых в Интернете. Более того, этот информационный поток увеличился настолько, что некоторым из «выдающихся умов» в области компьютерных технологий пришлось озадачиться вопросами классификации и распределения контента. Это задача первой необходимости для компаний, зависящих от своей способности наводить порядок в хаосе, созданном наличием практически неограниченного выбора.

По большей части краудсорсинг – все еще зарождающийся феномен. И в то же самое время следует помнить, что краудсорсинг уже стал господствующей силой в нашей культуре. Способность «толпы» действовать в качестве фильтра делает возможным существование таких бизнес-компаний, как iStockphoto, или проведение конкурса рекламных роликов, как, например, Frito-Lay Super Bowl. Но тот же самый принцип используется и в более широком смысле: наше коллективное суждение является главной действующей силой, распоряжающейся Интернетом, крупнейшим за всю историю человечества хранилищем информации. И какой механизм сделал все это возможным? Он называется Google.

Поисковая система Google передала полномочия определять важность информации, будь то статья в газете или запись в блоге, в руки «толпы». Это знаменовало собой существенный переход от того, как люди привыкли использовать Интернет. До появления Google эксперты, а не «толпа», решали, какая информация заслуживает внимания. Основатели Google Сергей Брин и Ларри Пейдж совсем не собирались низвергать экспертов. На самом деле, когда они были всего лишь аспирантами Стэнфордского университета, разрабатывавшими алгоритм, который впоследствии станет стержнем поисковой технологии Google, свои идеи они черпали в традиционной академической системе ссылок и аннотаций.

Научные журналы имеют еще и другое предназначение, помимо распространения информации о последних достижениях, скажем, в физической антропологии или органической химии. Они являются средством, с помощью которого ученые надежно «защищают свои владения» и создают репутацию среди коллег. При написании статьи для публикации профессор очень внимательно выстраивает свои аргументы через ссылки на уже имеющуюся литературу в заданной области, аналогично тому, как адвокат «отполировывает» дело, ссылаясь на прецеденты. Любая научная статья представляет собой свод многочисленных ссылок на другие научные работы. В совокупности научная литература формирует собственную паутину ссылок.

В 1950-х гг. американский лингвист Юджин Гарфилд разработал метод определения степени весомости представленной работы. Впоследствии ставший общепринятым, анализ цитирования заключается в подсчитывании количества ссылок на определенную статью в других работах. Так, знаменитая статья Эйнштейна о теории относительности, написанная в 1905 г., считается пятой из наиболее «важных» научных статьей, опубликованной до 1930 г., поскольку другие ученые ссылались на нее 450 раз.

Главным достижением Ларри Пейджа стало понимание того, что гипертекст – это всего лишь ссылка, а сам Интернет – литературный корпус тесно взаимосвязанных между собой текстов, который, по сути, ничем не отличается от издаваемых десятилетиями «бумажных» научных публикаций. Точно так же, как ученый будет ссылаться на работу А. Эйнштейна «К электродинамике движущихся тел», гурманы на форуме Chowhound.com будут ссылаться на «Лучшие рецепты в мире» Марка Биттмана в своих статьях о приготовлении блюда из сырой рыбы, маринованной в лимонном соке. Конечно, в первом случае речь идет о физике космической плазмы, в то время как во втором – о сырой рыбе, но, исходя из текстовой динамики, они имеют много общего.

С позиции сегодняшнего дня такое наблюдение – а именно то, что ссылка представляет собой упоминание документа в гипертексте, – кажется обычным явлением, но в то время это было выдающимся открытием. В 1995 г. Интернету исполнился всего один год, а «поисковые системы» находились в зачаточном состоянии. В то время Yahoo! тогда, как и сейчас, один из наиболее популярных интернет-адресов, представлял собой обычный каталог веб-сайтов, созданных основателями Yahoo! Джерри Янгом и Дэвидом Фило. Интернет-контенты ранжировались самими Фило, Янгом и их сотрудниками, а не с помощью независимых действий коллективных пользователей Интернета. Другие поисковые системы, как например АltaVista, работали по принципу запуска «пауков» в сеть Интернета, которые, пробираясь по паутине, будут отправлять обратно списки веб-страниц, впоследствии организуемых в главный каталог. Но еще не существовало какого-либо эффективного способа ранжирования результатов по степени их значимости. Поэтому, задав при поиске слово «токсичный», можно было легко наткнуться на «токсичные отходы»: странички, посвященные малоизвестным ирландским группам с таким названием, или зайти на сайт Агентства по охране окружающей среды США, публикующего список мест на территории страны с высоким уровнем содержания токсинов. Технологии плохо справлялись с задачей «укрощения» анархии, существовавшей в Интернете.

Официально Google был зарегистрирован 7 сентября 1998 г. Он использовал алгоритм своих основателей – PageRank (остроумная игра слов с использованием фамилии Ларри Пейджа, который сыграл такую же роль в развитии Интернета, как и Гарфилд в оценке научных публикаций). PageRank определяет актуальность и степень важности сайта путем подсчета количества других сайтов, ссылающихся на него, а также количества ссылок на сами эти сайты. В качестве примера допустим, что на обе страницы – Агентства по охране окружающей среды с информацией о токсичных территориях и фанатов группы Toxic Waste имеется по десять ссылок. Но на страницу агентства ссылаются различные университетские сайты, некоторые газеты и главная страница сенатора, на которые, в свою очередь, ссылаются несколько сотен маленьких сайтов. Общее количество ссылок в этой расширенной сети определяет так называемый Googlejuice сайта агентства, или его место в рейтингах. В этом отношении его сайт будет существенно опережать сайт фанатов группы, на который наверняка ссылались ему же подобные безвестные сайты. PageRank включает в себя и другие переменные величины, которых, если судить по работе Джона Баттеля «Поиск: как Google и его конкуренты переписали правила бизнеса преобразовали нашу культуру» (The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture75), насчитывается около двухсот, Но оценка значимости ссылок остается главным компонентом. Поисковая функция Google оказалась настолько эффективной при определении релевантности (а это обязательное условие для хорошей поисковой системы), что сайт достаточно быстро стал доминирующим игроком в индустрии веб-поиска.

Google продемонстрировал, что индивидуальные решения представителей широких масс, агрегированные должным образом, способны организовать неуправляемый другим путем поток информации. Сила принятия «толпой» коллективных решений выражается в форме ссылок, которые Пейдж и Брин в своей первичной научной работе охарактеризовали как «избирательные голоса». Полагаясь в процессе классификации и распределения контента в Интернете на несогласованные действия миллионов людей, а не на экспертов, Google практически в одиночку отменил веками наработанный здравый смысл.

Вся прелесть поисковой системы Google заключается в том, что она не требует никаких дополнительных усилий со стороны пользователей. Для «толпы» естественно выражать свое мнение. При этом ее коллективные действия уже сами по себе представляют собой систему знаний. Google не требует от людей прочитать и проанализировать все 15 миллиардов веб-страниц. «Толпа» делает это по собственному желанию.

Несмотря на то что PageRank является, возможно, наиболее распространенной системой использования коллективных суждений «толпы» в качестве организационного аппарата, это далеко не единственное воплощение этой идеи. И Amazon, и Netflix используют информацию, генерируемую «толпой», для предоставления рекомендаций по книгам и фильмам для своих заказчиков. Для этого явления есть даже свой термин – «совместная фильтрация», хотя сам этот процесс совсем не нов. «По своей сути “совместная фильтрация” являет собой любой механизм, посредством которого участники сообщества взаимодействуют с целью определения, что есть хорошо, а что – плохо», – пишут авторы книги «От “мышки” к «“мышке”»: маркетинговая мощь совместной фильтрации» (Word of Mouse: The Marketing Power of Collaborative Filtering76). Или более конкретно, что имеет значение для человека, а что нет. Компьютеры просто позволяют выполнять это задание, оперируя наибольшим количеством информации и подключая к этому процессу большее количество пользователей.

Первый автоматизированный совместный фильтр был разработан в калифорнийской компьютерной лаборатории Xerox PARC, которой принадлежит авторство таких инноваций, как компьютерная «мышь» и лазерный принтер. В начале 1990-х гг. научные сотрудники PARC активно пользовались компьютерной сетью Usenet для общения и публикаций, что позволяло им иметь доступ к статьям о последних достижениях в их сфере деятельности. Статьи распространялись с помощью электронной почты, вследствие чего возникала проблема, которая на сегодняшний день беспокоит фактически каждого человека, имеющего электронный адрес, – переполненность электронного почтового ящика. В 1992 г. четверо ученых из PARC разработали систему под названием Tapestry, которая позволяла читателям оставлять комментарии к каждому документу или просто ставить пометку «мне нравится» (“likeit”) или «мне не нравится» (“hateit”). Таким образом, получатели почты могли отфильтровывать тысячи входящих сообщений и статей, задав серверу программу доставки только сообщений, имеющих положительные отзывы77.

Но проект Tapestry носил ограниченный характер, поскольку был доступен только сотрудникам PARC. Несколько лет спустя группа ученых-программистов из Массачусетского технологического института и других университетов запустила проект GroupLens, который также оценивал статьи на Usenet. GroupLens усовершенствовал Tapestry, например, им мог пользоваться любой желающий. Поэтому GroupLens имел доступ к гораздо большему количеству информации, чем Tapestry. Принцип его работы заключался в анализе численных характеристик, определяемых читателями по отношению к различным статьям и распределению единомышленников по группам, исходя из предположения, что если их точка зрения совпадала в прошлом, она совпадет и в будущем. В 1995 г. лаборатория Массачусетского технологического института Media Lab применила данный метод к музыкальным записям, когда она запустила сайт под названием «Полезные онлайн-рекомендации по музыкальным направлениям». Вскоре МТИ обновил сайт Firefly, на котором работала система «музыкальных рекомендаций», и пригласил к участию инвесторов в надежде продать свою технологию фильтрации другим компаниям. В конечном счете сайт Firefly, приобретенный, а впоследствии и закрытый компанией Microsoft, привлек внимание любителей музыки и вдохновил другие сайты, например, популярную интернет-службу Last.FM.

Но своей популяризации «совместные фильтры» обязаны огромному книжному интернет-магазину Amazon. Инновация Аmazon заключалась в проведении взаимосвязи между отдельными предметами, а не пользователями. Другими словами, тщательно отслеживая покупки каждого покупателя, Amazon может использовать огромное количество результативных данных, чтобы провести параллель между «Биографией Ральфа Эллисона» Арнольда Рам-персада и романом Жуно Диаса «Короткая и удивительная жизнь Оскара Уао». Эти книги не имеют ничего общего, между тем люди, которые покупают одну из этих книг, часто покупают и вторую. Почему? Amazon не делает никаких предположений на этот счет, да в общем-то и не нуждается в них. Подчеркнув связь между этими двумя книгами, Amazon просто увеличил их продажи. Система рекомендаций Amazon оказалась настолько эффективной, что подобные методики стали активно применяться и другими сайтами.

И хотя совместные фильтры обычно имеют отношения к системам рекомендаций наподобие той, которую использует Amazon, они предоставляют полезный материал, с помощью которого можно определить, каким образом предпочтения «толпы» используются в разных сферах деятельности. Механизмы коллективного принятия решений подразделяются на две категории: активные и пассивные. Amazon использует пассивный фильтр, данные, являющиеся «побочным продуктом» покупок, осуществляемых клиентами на сайте компании. Пассивная фильтрация нацелена на данные, генерируемые нами в процессе нашей повседневной современной цифровой жизнедеятельности: добавление ссылок к блогам, просмотр видео на YouTube, покупку миски на Williams – Sonoma.com, которые в дальнейшем используются в рациональных целях.

Экспериментальная система PARC, напротив, является активным фильтром. Эта технология опирается на сознательные действия пользователей, оценивающих имеющийся у них материал. Netflix использует активный фильтр, хотя компания имеет ту же цель, что и Amazon, – продать как можно больше продуктов посредством рекомендаций. В то время как Amazon берет за основу совместных фильтров покупательские привычки своих потребителей, Netflix полагается на своих участников в вопросе оценки/рейтинга просмотренных ими фильмов, с тем чтобы поднять уровень влияния своей рекомендательной системы «Cinematch». Подобным же образом рейтинговая система eBay полагается на то, какую оценку ставит покупатель продавцу в зависимости от его надежности и гарантоспособности.

В последнее время фильтрация вышла далеко за пределы поисковых технологий и электронного бизнеса. Точно так же, как когда-то библиотекари создали алфавитный указатель с целью организовать имеющиеся информационные ресурсы по темам, интернет-сообщество все чаще использует теги для классификации контента, создаваемого и потребляемого им. Например, я присваиваю теги каждой своей публикации в блоге. Для статьи о краудсорсинге для рекламных роликов Frito-Lay Super Bowl я использовал теги «Doritos» и «коммерческая реклама». И если кому-то будет необходимо сделать поиск в Интернете на тему «краудсорсинг» или «Doritos», они смогут найти мои публикации на самом верху огромного количества информации. Такие ярлыки, будь это номер на карточке библиотечного каталога или теги для описания публикаций в блогах, имеют свое название – «метаданные».

Использование тегов началось с блогов, но они достаточно быстро стали использоваться и во многих других формах социальных сетей, которые стали появляться на рубеже XXI столетия. Сайт, предлагающий услугу хранения и публикации закладок на страницах всемирной сети, Del.icio.us и сайт по обмену фотографиями Flickr активно используют теги, что позволяет отдельным пользователям классифицировать закладки и фотографии. В общей сложности эти метаданные включают в себя инициированную пользователем систему классификаций. Если я заведу поиск на тему «ловля рыбы нахлыстом» (надо же иногда отвлекаться от научно-технической тематики) на сайте Del.icio.us, я получу ссылки на 2509 сайтов, которые пользователи «пометили» как имеющие отношение к «ловле рыбы нахлыстом», начиная с пособия по завязыванию узлов и заканчивая сайтом, специализирующимся на подводной съемке форели.

Такая детальная классификация называется еще фолксономией и представляет собой огромный интерес для специалистов библиотечного дела. «Профессионально созданные метаданные являются дорогостоящим продуктом с точки зрения времени и усилий. Это усложняет процесс охвата и возможность поспевать за огромным количеством производимого информационного контента, особенно таким современным средством, как Интернет», – пишется в одной из ранних публикаций, посвященных фолксономии78. И в то же время фолксономия демонстрирует и существенные недостатки: по мнению авторов, она является «изначально хаотичной». Тем не менее она невероятно чувствительна к потребностям пользователей и, что не менее важно, беспредельно масштабна. Преимущества фолксономии не отличаются от многих других приложений краудсорсинга: она делает изначально непосильную задачу выполнимой.

Переход к использованию фильтров далеко продвинул возможности других форм краудсорсинга. Даже новости сегодня приобретают форму совместных суждений миллионов читателей. Большинство служб новостей, от NPR до The New York Times, имеют колонки на своих сайтах, где публикуется рейтинг статей на основании их популярности у читателей. «Это можно “обыграть”, – говорит Дэвид Карр, обозреватель газеты The Times. – Животное, преимущественно дельфин, или другой популярный персонаж помогают зацепить читателя на крючок. Редакторы обращают на это внимание, и корреспонденты знают, когда их публикации пользуются популярностью».

Все это ведет к потрясающим трансформациям в наших способах познания окружающего мира. И если когда-либо существовало государство, в котором бесспорно правили эксперты, то это происходило там, где шел активный отбор и организация мировых знаний. За последние несколько коротких лет эта функция была существенно демократизирована. И, как и в случае с другими формами демократии, не обошлось и без неприятных последствий.

Данный текст является ознакомительным фрагментом.

Выбирая гипертекст

Читайте также

Выбирая, что делать (и чего не делать)