Как байесовская статистика раскрыла величайшую загадку американской истории?

Период с 1787 по 1788 год прочно вписан в историю Соединенных Штатов. За это время Александр Гамильтон (Alexander Hamilton), известный деятель войны за независимость США, и его коллеги — Джеймс Мэдисон (James Madison) и Джон Джей (John Jay), написали и опубликовали серию статей (объединенных в сборник «Записки Федералиста») в поддержку ратификации новоявленной Конституции Штатов. Значение данной работы тяжело переоценить, потому, что как раз благодаря 85 статьям конфедерация свободных колоний стала единым страной.

Примечательно да и то, что авторы публиковались под неспециализированным псевдонимом — Публий (Publius).

Но кем был данный Публий?

Годы спустя, уже по окончании ратификации Конституции, в то время, когда «Записки Федералиста» стали больше, чем политической рекламой, и заняли место в истории, люди задались вопросом: кто из отцов-основателей написал тот либо другой текст?

По этому вопросу Аарон Берр (Aaron Burr), третий вице-американский президент, сообщил следующее:

«Дабы написать серию эссе, защищающих Конституцию Соединенных Штатов, Александр консолидировал силы с Джеймсом Мэдисоном и Джоном Джеем. В течение шести месяцев они сумели создать 85 очерков, получивших широкую известность называющиеся «Записки Федералиста». Как мы знаем, что Джей успел написать лишь 5 текстов, а Мэдисон — 29.Как байесовская статистика раскрыла величайшую загадку американской истории?

Оставшиеся 51 принадлежат перу Гамильтона».

Но это только предположения Берра, что усугубил обстановку тем, что убил (на дуэли) Гамильтона прежде, чем американцы успели разобраться с этим вопросом.

Не смотря на то, что авторство большинства эссе не вызывает сомнений, споры не утихают около двенадцати работ. Мэдисон утверждал, что эти произведения принадлежат ему, приверженцы Гамильтона показывали на обратное, и скоро «Записки Федералиста» превратились в арену политических баталий.

Великой тайне пришел финиш, в то время, когда в первой половине 60-ых годов двадцатого века за дело взялись ученые, но не историки либо политологи, как вы имели возможность поразмыслить, а математики. Вооружившись до тех пор пока еще не апробированной десятками тысяч и статистической теорией листов бумаги (дело было до появления компьютеров), три года Фредерик Мостеллер (Frederick Mosteller) и Дэвид Уоллес (David Wallace) скрупулезно разбирали письменные работы Гамильтона и Мэдисона, дабы распознать закономерности подбора слов в тексте — собственного рода лингвистическую подпись, благодаря которой возможно выяснить автора текста.

В то время, когда Мостеллер и Уоллес опубликовали результаты собственного изучения, они не только раскрыли тайну американской истории, но и создали новый математический метод анализа текстов. Неожиданно статистики и программисты попытались себя в роли детективов.

Десятилетия спустя данный способ статистической атрибуции начал использоваться в анализе религиозных текстов, увеличении компьютерной безопасности, предоставлении убежища политическим беженцам. Наконец, благодаря ему удалось выяснить авторство книги, принадлежащей перу одного из самых популярных писателей, но изданной под псевдонимом.

Но все началось со необычного римского имени — Публий.

Просматривайте кроме этого: Пивовар, революционизировавший прикладную статистику

Из-за чего Публий?

В восемнадцатом веке применение псевдонимов при публикации политических произведений было очень распространено. Это снабжало автору текста определенную защиту. В то время, когда Гамильтон, Мэдисон и Джей принялись за произведение «Записок Федералиста», в которой собирались «реализовать» Конституцию США избирателям Нью-Йорка, как вы осознаёте, никакого закона, обеспечивающего свободу слова, еще не существовало, и они рисковали собственными судьбами.

Но псевдоним был забран не только из-за безопасности. До 1788 года никто не предпринимал попыток сформулировать американцам идею Конституции США, а «Записки Федералиста» были ничем иным, как монументальной политической рекламой количеством в 180 000 слов. Представьте себя на месте гражданина зарождающегося страны, которому предстоит выразить отношение перед доселе малоизвестным ему документом: кого вы сочтете более убедительным — вчерашних вояк и пару партизан либо скромного гражданина по имени Публий, главным намерением которого было «не мешать правому делу».

К сожалению, со временем проявились и недочёты псевдонима. Годы спустя люди начали задаваться вопросом: кому все же в собственности та либо другая статья? Подписанные одним именем работы не разрешали выяснить автора.

Тогда без особенных возражений было решено, что Мэдисон и Гамильтон написали 73 статьи, а Джею отвели всего 5. И еще оставалось пара текстов, в отношении которых единого мнения не было.

К этому времени Гамильтон был тесно связан с ее платформой и Партией федералистов политической и денежной централизации. Мэдисон, сначала являвшийся приверженцем Джея и Гамильтона, позднее примкнул к противоположному политическому лагерю республиканцев, подверг критике идею Гамильтона о необходимости нацбанка и стал одним из основателей Демократической-Республиканской партии. Вспыхнувшее идеологическое противостояние Мэдисона и Гамильтона перевоплотило вопрос о принадлежности наиболее значимых трактатов в один из самых дискуссионных.

Александр Гамильтон был смертельно ранен Аароном Берром на дуэли 11 июля 1804 года и унес в могилу правду об авторстве «Записок Федералиста»

Эта схватка длилась десятилетиями. В первые годы по окончании смерти Гамильтона его приверженцы опубликовали обновленное издание «Записок Федералиста», в котором все спорные статьи были приписаны перу павшего соотечественника. Эти выводы были критикованыприверженцами идей Мэдисона, и по окончании его смерти во второй половине 30-ых годов XIX века ими было выпущено новое издание «Записок» с предсказуемыми корректировками.

Историк Дуглас Адэр (Douglass Adair) комментирует: «неверия и Чередование веры, неизменный спутник любого спора, напрямую коррелирует с трансформацией престижа толкователей Конституции. А престиж определялся господствовавшими в стране заинтересованностями в любой конкретный период: аграрными либо капиталистическими».

Получается, что идеологические воззрения Гамильтона и Мэдисона отличались разительно. Тогда из-за чего столь сложно отделить работы этих авторов друг от друга?

В действительности, как по стилю, так и по содержанию, эссе Гамильтона и Мэдисона в «Записках» практически неразличимы. Все они написаны восторженным, высокомерным слогом. По итогам анализа, совершённого математиками Мостеллером и Уоллесом, средняя протяженность предложений у обоих авторов равна 35 словам.

Что касается содержания, то «Записки Федералиста» должны были комплексно раскрывать значение новой Конституции. Не смотря на то, что в будущем взоры обоих авторов очень сильно изменились, в этих эссе их мнения и интересы в отношении будущего государства совпадают.

Принимая к сведенью то, что между текстами Гамильтона и Мэдисона не было значительных отличий, неудивительно, что продолжительное время неприятность определения авторства 12 эссе казалась неразрешимой. Легко раньше не было техвозможностей подвергнуть тексты количественному анализу. Но все изменилось во второй половине 50-ых годов двадцатого века.

Просматривайте кроме этого: Кто изобрел понятие о статистической регрессии?

Количественный анализ «Записок Федералиста»

Где-то во второй половине пятидесятых годов историк Дуглас Адэр увидел что-то забавное в произведениях Гамильтона и Мэдисона.

Солидную часть собственной карьеры Адэр посвятил принадлежности тех самых двенадцати статей, и, наконец, ему удалось отыскать отличие между авторским стилем Гамильтона и манерой письма Мэдисона. В случае если Гамильтон в собственных текстах применял слово «while», Мэдисон предпочитал использовать «whilst» (оба переводятся как альянс «до тех пор пока»).

Но эту находку не было возможности назвать неоспоримым доказательством принадлежности текста Мэдисону либо Гамильтону, потому, что кое-какие из работ по большому счету не содержали этих слов, а в других — употреблялись оба слова.
И все же Адэр почувствовал, что наконец нащупал верное направление — и исходя из этого написал Мостеллеру.

Мостеллер был доктором наук в Гарварде (Harvard University) и приближался к тому, дабы стать одним из самых выдающихся статистиков страны. Еще в 1940-х годах Мостеллер отметился изучением на тему «Записок Федералиста». Объединившись с политологом Фредериком Уильямсом (Frederick Williams), он кропотливо измерил среднюю длину предложений в произведениях Гамильтона и Мэдисона в надежде отыскать отличие между ними, дабы после этого применять эти выводы для идентификации спорных текстов.

Но у них ничего не вышло: работы отцов-основателей США были на удивление схожими. Средняя протяженность предложения составляла уже знакомые нам 35 слов.

направляться подчернуть, что Мостеллер и Уильямс не первенствовали , кто додумался обратить внимание на количественные чертей текста.

Еще в первой половине 50-ых годов XIX века английский математик Огастес де Морган (Augustus De Morgan) высказал предположение, что проверить авторство апостола Павла большой части Нового Завета (14 посланий) возможно, посчитав среднее число слов в предложении в каждом послании. Он так и не удосужился испытать собственную предположение, но первым высказал идея, что так возможно установить авторство текста.

Джеймс Мэдисон: 4-ый Американский Президент, соавтор «Записок Федералиста»

Спустя пара десятилетий американский физик Томас Корвин Менденхолл (Thomas Corwin Mendenhall) все-таки опробовал данный способ. Но вместо того, дабы подсчитывать число слов в предложениях, Менденхолл высказал предположение, что отличить работы авторов возможно на базе того, как довольно часто они применяли громадные и мелкие слова. Он сравнил отрывки из произведения Чарльза Диккенса «Оливер ярмарки» и «Твист тщеславия» Уильяма Теккерея.

Но средняя протяженность слова всегда менялась от отрывка к отрывку, и какой-либо очевидной отличия между авторами отыскано не было.

Но не все попытки статистического анализа текстов заканчивались неудачей. Во второй половине 30-ых годов двадцатого века английский статистик Джордж Удни Юл (George Udny Yule) применял обрисованный де Морганом способ и узнал, что «Подражание Христу» (The Imitation of Christ) больше напоминало произведение Фомы Кемпийского, монаха, жившего в пятнадцатом веке, чем Жана Жерсона, которому это произведение приписывалось.

Но в 1940-х годах попытки Мостеллера установить авторство спорных эссе, измеряя длину предложений и слов, не увенчались успехом. Позднее обрисовывая данный опыт, Мостеллер заявил, что он разглядывает собственный изучение с Фредериком Уильямсом как пример, иллюстрирующего тот факт, что неудачи в научных изучениях неизбежны.

В письме, в котором Адэр уговаривал Мостеллера продолжить изучения в данной области, он обратил внимание статистика, что вычислять необходимо не длину предложений, а количество конкретных слов. В случае если Мэдисон и Гамильтон отличались в применении слов «while» и «whilst», в текстах могли быть и другие лингвистические подсказки, каковые решили бы эту проблему.

Просматривайте кроме этого: Занимательная статистика. Часть вторая, огромная

Взвешивание доказательств

Летом 1959 года Мостеллер решил предпринять еще одну попытку изучения «Записок Федералиста». Сейчас он консолидировал силы со статистиком из Университета Чикаго (University of Chicago) Дэвидом Уоллесом. Изучение давало возможность ответить на два вопроса.

Во-первых, удавшийся опыт раскрыл бы одну из самых интригующих тайных американской истории, а во-вторых, изучение давало возможность опробовать перспективный, но спорный статистический способ.

В первую очередь ХХ века статистика как наука была обусловлена конкретной интерпретацией природы возможности. Любой «частотный» опыт начинался с выдвижения догадки — к примеру, при подбрасывании монеты частота ее падения «орлом» равна 50% — а после этого проводились опыты, на протяжении которых становилось ясно, сходится ли действительность с догадкой либо нет. Такая возможность именовалась частотной.

В отличие от частотной возможности, Байесовский подход (что и собирались проверить статисты) в зависимости от данных определял относительную возможность тот либо иного события — к примеру, что конкретное эссе написано Гамильтоном либо Мэдисоном.

В первой половине 20-го века частотный подход господствовал в статистике, но к тому времени, в то время, когда Дуглас совершил первый опыт с «while» и «whilst», по обстоятельству сильного противодействия ветхой школы статистики Байес занял более примирительную позицию к своим оппонентам.

«Не смотря на то, что теорема Байеса и воображала несомненный интерес для исследователей, никаких масштабных опытов, талантливых подтвердить состоятельность данной научной разработки, совершено и опубликовано не было» — писали Мостеллер и Уоллес.

Словом, перед учеными раскрывался шанс попасть в историю.

Просматривайте кроме этого: статистическая достоверность и Оптимизация конверсии: это что может значить?

«By», «To», «From», «Rooster»

направляться осознавать, что во второй половине 50-ых годов двадцатого века кроме того такое простое воздействие, как подсчет числа определенных слов в тексте, было далеко не самой несложной задачей.

«Каждое слово эссе размещалось на отдельной строчке, а все произведение помещалось на долгой бумажной ленте — говорит Мостеллер. — Ножницами мы разрезали эту ленту на части, в каждой из которых пребывало лишь одно слово. После этого все это вручную сортировалось. Потребовалось большое количество ассистентов». И все же процесс подсчета занял пара месяцев.

Бывало, что случайный порыв воздуха от быстро открытой двери смешивал ленты, уничтожая труды нескольких суток.

IBM 7090, что Мостеллер и Уоллес применяли для анализа спорных 12 статей

В то время, когда все слова были распечатаны и распределены по группам, команда Мостеллера и Уоллеса начала поиск отличий между текстами, в частности — те слова, каковые Гамильтон имел возможность применять чаще Мэдисона, и напротив. В приоритете были служебные слова — альянсы, предлоги, артикли. Их люди используют везде и в схожем количестве, независимо от контекста.

«Количество применяемых служебных слов, в большинстве случаев, довольно постоянное. В отличие от остальных слов, служебные используются частенько, что разрешает собрать достаточный количество данных» — растолковывает Патрик Джаола (Patrick Juola), эксперт и профессор информатики по анализу текста при университете Дюкейн (Duquesne University). Он продолжает:

«В этом главное отличие служебных слов от остальных. Заберём такое слово, как «задира» (rooster), которое, как мне думается, достаточно редко видится в письменной речи. Если бы я забрал слово «задира» в качестве идентификатора авторства, изучение материалов заняло бы месяцы, и не факт, что оно принесло бы итог.

Быть может, создатель по большому счету ни при каких обстоятельствах не обращался к этому слову, либо применял его лишь раз».

Кое-какие из этих служебных слов справляются с ролью идентификатора лучше, чем другие.

К примеру, Гамильтон и Мэдисон применяли слово «from» приблизительно равное число раз, тогда как слово «by» Мэдисон использовал в два раза чаще. Исходя из этого Уоллес и Мостеллер покинули «by», но исключили из выборки «from». По окончании нескольких лет работы ученые выделили 30 слов, разрешавших отличить тексты отцов-основателей друг от друга.

Следующим шагом было построение статистической модели и проверка способа.
Загрузив в новенький IBM 7090 код, написанный в соответствии с теоремой Байеса, и обрабатывая за раз около 3000 слов («Чуть больше, и машина выходила из строя» — вспоминал позднее Мостеллер), модель выяснила частоту применения слова «Upon» в одном из спорных эссе, а после этого сравнила эти сведенья с частотой того же слова в произведениях, авторство которых уже определилось. Было узнано, что в большинстве работ Мэдисона слово «upon» не видится вовсе, в то время как в произведениях Гамильтона его частота равна 3,24 на каждую 1 000 слов. Иначе говоря низкая частота применения слова «upon» в спорных текстах будет говорить о авторстве Мэдисона, а высокая — Гамильтона.

Как точны эти выводы? Ученые пропустили через модель 22 эссе, часть из которых принадлежала Мэдисону, а часть — Гамильтону. Модель сумела правильно выяснить авторство каждой работы.

Но кроме того в том случае, если полученные эти не были через чур убедительными, машина предвещала — возможность того, что работу написал Гамильтон (в то время как он ее и написал в действительности), в 20 раз выше, чем Мэдисон.

Кто применял слово «Upon» чаще? Как довольно часто видится слово «upon» в произведениях Гамильтона и Мэдисона?

Наконец, пришло время проверить оставшиеся тексты. Результаты изучения указали — все 12 произведений принадлежат Мэдисону.

Само собой разумеется, достоверность результатов не стопроцентная. Как отметил сам Мостеллер: «Эта возможность не может быть ниже возможности какого-либо немыслимого события». Что, в случае если Джефферсон, вовсе не фигурирующий в данной истории, на деле написал все статьи? Что, в случае если при сортировке слов были допущены неотёсанные неточности?

Что, в случае если авторы изначально желали ввести всех в заблуждение? Очевидно, все это маловероятно — но вероятно.

Просматривайте кроме этого: Как получать больше с байесовской оценкой сплит-тестов?

От Гамильтона до Гарри Поттера

Уоллес и Мостеллер не только положили финиш тайне, разгадку которой не могли отыскать целых 174 года, вместе с тем стали пионерами в практическом применении теоремы Байеса и запустили новое направление в анализе текста. Не смотря на то, что попытки статистического анализа текста предпринимались ранее, ни один не был так отвлечённы строгим, математически сложным и исчерпывающим. В следующие годы статистический анализ текста стал повсеместным явлением.

К примеру, совсем сравнительно не так давно Кристофер Марлоу (Christopher Marlowe) взял долгожданное признание как соавтора трех «шекспировских» пьес.

С 1962 года анализу подвергались Священное писание мормонов, произведения, ошибочно приписываемые Марку Твену (Mark Twain), одна из книг о чудесной стране Оз за авторством Лаймена Фрэнка Баума (L. Frank Baum), радио-выступления Рональда Рейгана (Ronald Reagan) и др. Были проанализированы кроме того книги Джоан Роулинг (J.K.

Rowling).

В июле 2013 года внештатный обозреватель британского издания Sunday Times решил проверить слух, что новый роман«Зов кукушки» (Cuckoo s Calling) в собственности автору известной серии о Гарри Поттере.

Журналист обратился с просьбой о помощи к Патрику Джаола (Patrick Juola) — широко известному специалисту по создателю и анализу текстов особой программы по установке авторства — Java Graphical Authorship Attribution Program (JGAAP). Эта программа была куда идеальнее модели, созданной Уоллесом и Мостеллером. Анализ состоял не только из подсчета конкретных слов: совокупность пробовала отличить тексты одного автора от другого по изюминкам пунктуации, комбинации слов и буквосочетаний и последовательности вторых показателей.

Не смотря на то, что Уоллесу и Мостеллеру потребовались годы, дабы завершить изучение, анализ произведений Джоан Роулинг и еще трех видных писателей и их сравнение с «Зовом кукушки» занял всего пара часов.

«Синтаксис, лексика, сложность и пунктуация текста — все это аналогично авторскому стилю Джоан Роулинг», — говорит Джаола. — «Наверное, Гэлбрейт (предполагаемый создатель романов) — псевдоним Роулинг».

Возможность неточности, очевидно, не исключалась, но по окончании публикации результатов изучения в газете Times Роулинг признала собственный авторство.

Джоан Роулинг

По словам Джаолы, итог говорит о том, что статистический анализ текста — не волшебство. Сейчас Патрик совершенствуетпрограмму.

Любопытно, что статистический анализ текста способен не только раскрыть тайны истории либо установить авторство легендарных текстов. Время от времени это выручает судьбе. К примеру, в один раз с Джаолой связался юрист, чьим клиентом был человек, запрашивающий у американского руководства статус беженца.

Это был журналист, написавший последовательность критических статей, где обличал репрессивный режим собственной страны. Не смотря на то, что статьи были опубликованы анонимно, журналист не сомневался, что его вычислят и убьют.

Журналисту нужно было доказать Иммиграционной службе и таможне США, что он написал эти статьи и в праве на политическое убежище. Джаола загрузил в программу работы этого журналиста, ряд статей и анонимные статьи вторых авторов. Программа установила — возможность, что автором был кто-то второй, колеблется в пределах от 2.78% до 16.7%.

Так, статистический анализ спас жизнь человека и защитил свободу слова. без сомнений, Александр Гамильтон и Джеймс Мэдисон одобрили бы это.

Высоких вам конверсий!

По данным: priceonomics.com. Источник картины: Eric K. Washington

Случайные статьи:

Условная вероятность (теорема Байеса)


Подборка похожих статей:

riasevastopol