Недавно был опубликован анализ статистических данных, казалось бы, очень редких событий – исследовалось творчество в области научно-технической деятельности. В статье ставился вопрос: сколь часто одно и то же открытие или изобретение делается одновременно несколькими людьми. Обработка материала привела к следующим выводам: за определенный промежуток времени два человека одновременно пришли к одному научному результату в 179 случаях, три человека – в 51, четыре человека – в 17, пять человек – в 6… Исследователь убедительно показал, что к творческой научной деятельности можно смело применять законы теории вероятностей. Рассуждал он следующим образом.
Представьте себе сад научных открытий. В нем имеется яблоня, на которой растет тысяча спелых яблок. По саду гуляет тысяча ученых, глаза которых завязаны. Их подводят к яблоне и просят одновременно сорвать по одному яблоку. (Поскольку задача математическая, то мы просим снисхождения к реальности обстановки.) Предполагается, что каждый из участников может дотянуться с равной вероятностью до любого яблока. При такой постановке вопроса можно рассчитать, каковы же шансы обнаружить на одном яблоке одну или несколько рук друзей по профессии. Получаются данные, поразительно близкие к тем, которые мы привели выше.
Статистические распределения всегда представляют познавательный интерес, а в очень многих случаях знание статистики дает руководство к действиям.
Остановимся же на двух важных примерах: на страховании жизни и предсказании погоды.
Двум… не бывать!
Люди не очень любят размышлять о грядущей неприятности, а тем более о кончине дней своих и своих близких. По этой причине наш разговор о статистике смертей может показаться излишним и бестактным. Однако наступает день, когда мы начинаем интересоваться дальнейшей своей судьбой и вопросами страховки.
Допустим, вы хотите застраховать в одну тысячу рублей свой дом от пожара, свое имущество от кражи или свою жизнь от смерти сроком на один год. То есть вы хотите, чтобы в случае, если произойдет какая-либо из этих неприятностей, вам (или вашим наследникам) уплатили тысячу рублей. Чему должен равняться страховой взнос за год, чтобы государству (или страховой компании) имело бы смысл заключить с вами контракт?
Нетрудно сообразить, что суть дела состоит в том, чтобы знать вероятность того несчастного случая, от которого вы себя страхуете. Не всегда это простая задача. Волей-неволей страховой агент должен абстрагироваться от частностей, скажем он постарается учесть состояние вашего здоровья, чтобы отнести вас к определенной категории плательщиков. Правда, ему останется неизвестно, насколько умело и нерискованно вы водите свой автомобиль или насколько вы вспыльчивы и как часто вступаете в уличные драки. Однако, пренебрегая всем этим и многим другим, Госстрах отнесет вас к одной из возрастных категорий, составленных на основании длительных наблюдений и о которых известна статистика смертей. Эти статистические данные сведены в таблицы «дожития». В них записано, сколько из миллиона родившихся в один и тот же год мужчин в данной категории доживают до определенного возраста. Например, во Франции в 1895 году (у меня эти таблицы под рукой, а все примеры одинаково показательны) до 40 лет доживало 717 338 человек, а до 41 года – 711 352 человека. Таким образом, вероятность сорокалетнего человека прожить ближайший год равняется 0,992, соответственно вероятность умереть равняется 0,008. Из миллиона человек до 80 лет «добралось» 166 162, до 81 года – 145 553. Вероятность прожить год с 80 до 81 уже равняется 0,876, а вероятность покинуть мир 0,124.
Чтобы вести свою работу, так сказать, «вничью», страховой организации следует определить страховые взносы по страховкам следующим образом. Меньше чем в одном случае из ста страховок придется выплатить тысячу рублей семьям сорокалетних клиентов. Чтобы оправдать эту тысячу рублей, надо установить страховой взнос что-нибудь около 10 рублей в год за тысячу рублей страховки. Принимая во внимание, что страхование должно приносить доход, эта сумма должна быть соответственно увеличена. Страховка восьмидесятилетних стариков возможна лишь на гораздо более дорогих началах: из ста страховок уплатить придется в среднем более чем в двенадцати случаях. Следовательно, годовой страховой взнос должен быть выше чем 120 рублей за тысячу.
Надеюсь, что читатель не сердится на меня за напоминание о конечности жизни; мне кажется, что «Momento mori!» – полезный возглас. Человек живет значительно разумнее, спокойнее и полнее, если он время от времени вспоминает о сроке, отпущенном ему природой, зная, сколько «в среднем» живут люди его возраста.
Кстати, для ответа на этот последний вопрос существуют особые таблицы среднего срока ожидаемой жизни. Скажем, для пятидесяти лет этот срок близок к 20 годам, для шестидесяти – к 13, для семидесяти – к 8 и для восьмидесяти – к 4 годам. Смысл этих чисел таков: средняя продолжительность жизни лиц, перешагнувших за пятьдесят, равна 70 годам, за шестьдесят – 73, за семьдесят – 78 и за восемьдесят – 84.
Так что не надо прибегать к услугам кукушки, чтобы выяснить, сколько еще осталось лет для того, чтобы поумнее распорядиться своей жизнью.
А теперь о погоде
Вряд ли есть радиопередача, пользующаяся большей популярностью, чем сообщение о погоде. Хорошая погода для человека – это залог хорошего настроения. Ведь план ближайшего дня иногда сильно зависит от погоды, не говоря уже о планах отпуска.
Прогноз погоды слушают внимательно: негодуют, когда он не выполняется, радуются удачам метеорологов.
Метеостанции, раскиданные по всем уголкам земного шара, ведут систематические наблюдения за погодой уже много десятков лет. Ими накоплен огромный материал о температуре воздуха и почвы, об облачности и ветре, о давлении и количестве осадков. Хотите узнать, какая температура воздуха была в 10 часов утра 12 июля 1927 года в городе Ефремове? Пожалуйста, порывшись в архивах, вы найдете эти сведения. Все они обрабатываются по тем правилам, которые мы обсуждали.
Для каждого элемента погоды построены самые разные кривые распределения. Ведь не угадаешь наперед, какие случайные величины заинтересуют специалиста, планирующего сельскохозяйственные работы, и курортника, интересующегося погодой в прогулочных целях. В метеорологических справочниках приведены средняя годовая температура, средняя месячная температура, средняя максимальная температура (для каждого дня всегда отмечается верхняя отметка, до которой добиралась ртуть термометра), средняя минимальная температура… Все эти величины подвержены беспорядочным (и систематическим) колебаниям. Поэтому интересны средние отклонения от средних значений для всех этих величин.
В этом году я собираюсь поехать встречать Новый год в Сухуми или Гагру. Перед принятием такого решения я выписал из библиотеки справочник по климату и с нудной дотошностью ученого деятеля стал анализировать данные о погоде этих мест.
Оказалось, что у меня есть шансы попасть в настоящую жару. В городе Сухуми в январе был однажды зафиксирован абсолютный максимум температуры в 24 градуса. Вспомнив, о чем писал на предыдущих страницах, я решил не полагаться на мизерную вероятность повторения такой температуры в эту зиму и в соответствующей таблице нашел «средний из абсолютных максимумов». (Это вот что такое. Каждый год отмечается максимальная температура января, февраля и т.д. «Среднее», о котором говорится, было выведено чуть ли не за 100 лет.) «Средний абсолютный максимум» оказался равен 18 градусам. А на такую температуру, хотя бы в течение одного-двух дней, уже можно рассчитывать даже невезучему субъекту. Восемнадцать градусов в тени – этого совершенно достаточно, чтобы с полным наслаждением загорать; а загорать на солнце в январе – это совершенно превосходно. Значит, беру отпуск в январе.
Но, скажет внимательный читатель, знание одного лишь среднего значения абсолютных максимумов совершенно недостаточно, чтобы судить о вероятности события. Ведь нормальная кривая может быть очень плоской, колокол может быть невысоким, и тогда вероятность среднего будет невелика.
Правильно. Такие 18 градусов – сомнительный залог блаженства. Я продолжаю листать справочник и нахожу то, что требуется. Другая таблица дает значение «среднего отклонения» «средней максимальной температуры» от «многолетнего среднего январского»: это 2 градуса. («Среднее отклонение» – это еще одна характеристика ширины кривой нормального распределения. Полуширина кривой, с которой мы подробно знакомили читателя, немного больше «среднего отклонения».)
Как получены эти 2 градуса? Предположим, в 1900 году средняя январская температура равнялась 15 градусам, в 1901 году – 14, в 1902 – 18, в 1903 – 20, в 1904 – 17 и т.д. Поместив рядом, в следующей графе таблицы, абсолютные отклонения от среднего (то есть от 18 градусов), получим для 1900 года – 3, 1901 – 4, 1902 – 0, 1903 – 2, 1904 – 1 и т.д. Теперь остается сложить эти цифры за все годы наблюдений и разделить на число лет. Так были получены эти 2 градуса.
Добыв «среднее отклонение», я значительно прояснил условия проведения своего отпуска. То есть могу достаточно смело рассчитывать на то, что встречусь с такими днями, когда температура будет лежать в пределах 16–20 градусов. Ну а будут ли отклонения от 18 градусов больше 2? Возможно. Но если температура не поднимается выше 14 градусов (отклонение в два раза больше среднего), то я буду считать, что мне не повезло. Если же за месяц пребывания в Сухуми столбик термометра не пересечет 12 градусов – это уже редкостное невезение, и старожилы скажут, что такого они не помнят.
На этом можно было бы закончить разговор о метеорологических исследованиях, но я засомневался в его исчерпывающей полноте. Наши рассуждения насчет вероятности отклонений справедливы в том случае, если распределение температуры подчиняется нормальному гауссову закону. А подчиняется ли оно на самом деле? Данные о «среднем значении» и о «среднем отклонении» от среднего – это хорошо, а «полная кривая распределения» все-таки лучше. Какова она?
Составители справочника предусмотрели и такой запрос и привели данные для построения многолетней средней кривой распределения максимальных температур января. Согласно этим данным ниже нуля температура в январе не наблюдалась ни разу. В среднем 2,2 дня в январе имеют температуру между 0 и 5 градусами (можно сказать и так: вероятность температуры между 0 и 5 градусами в январе в городе Сухуми равняется 2,2/31, то есть 0,07 (семь процентов шансов). Температура между 5 и 10 градусами наблюдалась в среднем в течение 11,3 дня января; между 10 и 15 градусами – 12,4 дня; между 15 и 20 – 4,7 и, наконец, между 20 и 25 градусами – 0,4 дня. Я построил кривую и увидел, что все в порядке – получилась нормальная колоколообразная кривая.
Дни с температурой выше 10 градусов (в Москве в это время мороз и заносы) я считаю превосходной погодой: можно загорать, купаться, ходить на водных лыжах, кататься на катере. А таких дней в среднем за месяц будет 17,5, то есть больше половины. Значит, вероятность хорошей погоды одна вторая: орел или решка? Можно рискнуть – взять отпуск в январе и поехать загорать в Сухуми.
Итак, вы видите, что справочник по климату может великолепно служить руководством к действию: при его помощи можно делать определенные прогнозы. Некоторые предсказания оказываются почти категорическими: в январе в Сухуми температура ниже 0 не опускается, до плюс 12 в какие-то дни она повысится непременно и т.д. Менее решительные суждения могут быть сформулированы в виде предположений. И кой-какие прогнозы можно делать и без глубоких соображений. Разумеется, носят они вероятностный характер, но сохраняют этот характер и в том случае, когда их делают специалисты.
* * *
– Это ни на что не похоже, – сказала она тоскливо. – Пропал весь отпуск. Дождь и дождь не переставая. Сколько можно! А еще говорят, что этот месяц обычно не очень дождливый.
– Старожилы говорят, что такого не помнят, – сказал он. – Аномалия. Не повезло. А что сказало бюро погоды?
– Обещают на завтра такую же погоду, как сегодня, – и после паузы: – Слушай, давай уедем, черт с ними, с путевками.
– Не угадаешь. Уедешь, и как раз дожди кончатся. Хоть бы наука помогла. Вычислить вероятность продолжения дождей, что ли, а потом решить?
– Разве можно такие вещи вычислять? – с недоверием спросила она. – А потом… ну, допустим, вычислишь, получишь 30 процентов за дождь, а 70 против. Решим остаться и… проиграем. При 70 проиграть не так уж трудно.
Честно говоря, я не решился бы дать совет этой паре. Проиграть не так уж трудно и при шансах на выигрыш в 90 процентов. Но все же, если следовать вероятности всегда, то, подводя итоги, придешь к выводу, что расчеты помогли.
Что же касается возможности рассчитать, будет ли дождь идти завтра после того, как он уже льет целую неделю, то она имеется. Существует довольно простая формула математика прошлого Томаса Бейеса, опубликованная впервые в 1763 году в его посмертной работе «Опыт решения одной проблемы теории вероятностей». В ней впервые был поставлен вопрос о том, как может быть использована теория вероятностей для составления того или иного суждения о явлении, располагая лишь ограниченным рядом наблюдений. Пусть перед нами урна с шарами. Шары могут быть только белыми, могут быть только черными, а могут быть и белые и черные, то есть состав шаров – смешанный. Мы скажем, что любой состав урны имеет равные априорные вероятности.
(Что такое априорные? Латынь, которая обильно украшала научные сочинения прошлого, вышла сейчас из моды, но некоторые слова оказались стойкими. К ним относятся a priori и a posteriori, что означает «до опыта» и «после опыта». Впрочем, даже и в этом случае мы предпочитаем вводить соответствующие русские прилагательные.)
Предположим, мы вытащили один шар: он оказался белым. Ситуация после этого сразу изменилась, поскольку уже ясно, что предположение, будто все шары черные, надо отбросить. А если мы вытащили 5 белых шаров подряд? Этот факт сильно повышает вероятность гипотезы, что в урне много белых шаров. Можно ли выяснить, какова вероятность, что белых шаров 100 процентов, или 90, или 80, после того, как произведен опыт? Или короче – какова априорная вероятность того, что в урне столько-то белых шаров после того, как мы вытащили из урны 5 белых шаров?
Вот такие и подобные проблемы решал Бейес в своей работе.
Одна из формул, выведенных Бейесом, отвечает на вопрос, который интересовал неудачливую пару, попавшую в полосу дождей. Если какое-то событие произошло несколько раз, то можно высчитать, какова вероятность его свершения и в следующий раз. Формула, как говорилось, очень простая, и ее можно привести здесь, прибегнув – увы! – к алгебраическим символам, навевающим на некоторых все же страх или скуку: p=(q+1)/(q+2) (вероятность равна дроби, числитель которой равен числу происшедших событий плюс единица, а знаменатель равен этому же числу плюс два). Значит, если дождь идет один день, то вероятность, что он будет идти завтра, равна 2/3, если дождь идет два дня, то назавтра вы можете ждать такой же погоды с вероятностью 3/4, три дня – 4/5… восемь дней – 9/10. Просто, не правда ли?
Но если бездумно применять эту формулу, то можно прийти к абсурду. Например, я два раза набирал по телефону 01, вызывая пожарную команду, и она приезжала: значит, если я буду вызывать ее третий раз, то она прибудет тушить пожар с вероятностью в 75 процентов. Глупо ведь? Конечно, глупо. Или в этом году с Эйфелевой башни бросились и разбились две девушки, обманутые женихами. Значит, следующая имеет шанс из четырех остаться в живых. Глупо? Конечно, глупо. Но при чем здесь наша простая формула? Прочитав внимательно работу этого превосходного математика, мы увидим, что формула введена в предположении, что о вероятности единичного события нам неизвестно ровно ничего, то есть что эта вероятность может быть любой – от 0 до 1.
Итак, формулу Бейеса следует применять в том случае, когда мы ровно ничего не знаем о единичном событии. Так ли обстоит дело с дождливой погодой?
На основании многолетних наблюдений в городе Брюсселе установлено, что если дождь идет 1 день, то вероятность того, что он будет идти и завтра, равняется 0,63; если дождь идет 2 дня – его вероятность на завтра равна 0,68, 3 дня – 0,70, 5 дней – 0,73. Согласно же формуле Бейеса мы должны были бы иметь 0,66; 0,75; 0,80 и 0,86. Хотя опыт и теория близки, полного совпадения нет: формула оказывается несколько более пессимистична, чем реальная действительность.
Лучше совпадают с выводами теоремы Бейеса данные, полученные при наблюдении смены температуры. По данным того же города Брюсселя, вероятность того, что завтра температура будет такой же, как и вчера, равна 0,75;
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27