Изобилие данных и выбор исследователя
Изобилие данных и выбор исследователя
Это специальный раздел, так что читатель может пропустить его с легким сердцем. Опциональность есть повсюду, и здесь самое место поговорить о предвзятом подходе, или систематической ошибке отбора, вредящей духу науки и делающей избыток данных чрезвычайно опасным для знания. Больше данных – значит больше информации, в том числе неверной. Мы обнаруживаем сейчас, что все меньше исследований повторяют друг друга. Учебники психологии уже следует переписать. Что до экономики – забудьте. Не стоит доверять многим наукам, базирующимся на статистике, – особенно если на ученых давит необходимость публиковаться, чтобы продолжать научную карьеру. Пусть они и утверждают, что «двигают науку вперед».
Вспомним понятие «эпифеномен» и дискуссию о том, чем реальность отличается от библиотеки. Тот, кто изучает историю в библиотеке, обязательно обнаружит куда больше ложных взаимосвязей, чем тот, кто стал участником событий и наблюдает за причинами и следствиями в реальном времени. Нас обманывают эпифеномены, возникающие в том числе из-за переизбытка данных – в сравнении с реальными сигналами.
В главе 7 затрагивался вопрос уровня шума. В сфере информации шум зашкаливает и становится серьезной проблемой, потому что исследователь, как и банкир, обладает опциональностью. Ученый извлекает выгоду, а истина несет убытки. Свобода действий исследователя выражается в том, что он волен выбрать статистику, которая подтверждает его точку зрения – или дает хороший результат, – а остальное утаить. Ученый может попросту остановиться на том результате, который сочтет верным. Более того, он может обнаружить статистические взаимосвязи – и создать иллюзию результата. Таково одно из свойств информации: в огромных массивах данных большие отклонения – это куда чаще шум (или вариации), а не информация (или сигнал)[136].
Рис. 18. Трагедия изобилия данных. Чем больше у нас переменных, тем больше взаимосвязей «умелый» исследователь может преподнести как важные. Ошибки нарастают быстрее, чем растет информация; эти ошибки нелинейны (выпуклы) в отношении данных.
В медицине различают два типа исследований: (а) исследование по данным наблюдений, в ходе которого ученый смотрит на статистические соотношения в своем компьютере, и (б) метод двойной анонимности, когда информация добывается в ходе реалистического эксперимента, имитирующего реальность.
Первый тип, наблюдение за данными в компьютере, порождает всевозможные результаты, и, как доказал Джон Иоаннидис, по меньшей мере в восьми случаях из десяти они являются ложными. Однако об исследованиях по данным наблюдений пишутся статьи, публикуемые в некоторых научных журналах. К счастью, такие исследования не одобряет Управление по контролю качества пищевых продуктов и лекарственных препаратов – тамошние ученые очень осторожны. Мы с великим активистом Стэном Янгом, разоблачающим ложную статистику, обнаружили в журнале The New England Journal of Medicine посвященное генетике исследование, результаты которого получены статистическим путем – с тем же успехом их могли взять с потолка. Мы написали в журнал письмо, но нам никто не ответил.
На рис. 18 показано, сколь чудовищно велико может быть число потенциальных ложных взаимосвязей. Идея проста. Если я работаю с набором из 200 случайных переменных, совершенно не зависящих друг от друга, почти невозможно не обнаружить высокую корреляцию на уровне, скажем, 30 процентов, однако эта корреляция будет абсолютно ложной. Есть методики, позволяющие контролировать избирательность (скажем, поправка Бонферрони), но даже они не останавливают злоумышленников – как регулирование не останавливает инсайдеров, которые наживаются на системе. Вот почему за двенадцать с чем-то лет с тех пор, как мы расшифровали геном человека, генетики не добились никаких существенных результатов. Я не говорю, что данные не содержат важной информации; беда в том, что искать ее – все равно что искать иголку в стогу сена.
Искажены могут быть даже сами эксперименты: у исследователя имеется стимул отбирать лишь то, что отвечает его задачам, и скрывать неудачи. Ученый может также сформулировать гипотезу по итогам эксперимента, то есть подогнать ее под эксперимент. Впрочем, тут отклонение не столь велико, как в первом случае.
Эффект «одураченных данными» проявляется все шире. Есть отвратительный феномен «изобилия данных», когда ученые отбирают их в промышленных масштабах. Новое время в избытке обеспечивает нас переменными (и дает слишком мало данных по каждой переменной), так что ложные взаимосвязи множатся куда быстрее истинных, ведь шум обладает выпуклой природой, а важная информация – вогнутой.
По сути, данные могут поставлять нам только знание а-ля via negativa — их можно эффективно использовать для развенчания концепций, а не для подтверждения их.
Трагедия в том, что очень трудно получить финансирование, чтобы воспроизвести – и опровергнуть – уже проведенные исследования. Но даже если деньги найдутся, сложно найти тех, кто за это взялся бы: все понимают, что воспроизводя чужие опыты, героем не стать. В итоге мы не можем доверять эмпирическим результатам – кроме отрицательных. Я романтик, и мой идеал – английский священник, ученый-любитель, который обдумывает опыты за чаем. Нынешние профессиональные исследователи соревнуются в «поиске» взаимосвязей. Наука не должна быть соревнованием; в ней не должно быть табели о рангах – как мы видим, подобная система неизбежно рушится. Нужно очистить знание от агентской проблемы.
Данный текст является ознакомительным фрагментом.