Dmitry Kobak (kobak) wrote,
Dmitry Kobak
kobak

ПЖиВ: о пиках на дробях с малыми знаменателями

Мне накидали кучу ссылок на численные эксперименты, которые вроде как показывают, что пики на целых числах (как у ЕР на 50%, 75% и т.п.) закономерно возникают без всяких фальсификаций. Должен признаться, что я  был этим озадачен, но сегодня мы с коллегами во всём разобрались. Результат: резкий пик на 50% — это действительно артефакт целочисленого распределения, но пики на 65, 70, 75, 80, 85 и 95% — настоящие вбросы. Подробности и графики дальше.


Итак, на известных картинках с распределением количества УИК по голосам ЕР видны пики на «круглых» числах. Вот, например (из журнала nl):



Но разные люди проделали симуляции и обнаружили, что похожие пики возникают и без всяких фальсификаций. Вот например:
http://jemmybutton.livejournal.com/1359.html
http://singpost.livejournal.com/11326.html
http://users.livejournal.com/_winnie/327776.html
Я когда это вчера увидел, то ничего не понял. Для таких же тупых, как и я, объясняю. Возьмем два случайных числа A и B, выбранных от 1 до 500 (распределение равномерное), и сосчитаем C=A/(A+B). Повторим это 100000 раз и построим гистограмму значений С c очень маленьким бином (0.0001). Результат слева:



Ожидаемый в среднем результат я нарисовал красной линией. Как видно, появляются пики на 1/2, 1/3, 2/3 и т.д. — на дробях с малыми знаменателями. Почему, спросите вы? Отвечаю: давайте посмотрим внимательно на пик на 1/2 (на графике справа). Всё становится понятно: никакое число со знаменателем меньше 500 не может попасть в интервалы примерно (0.4995, 0.5) и (0.5, 0.5005). Поэтому там наша функция зануляется. А все значения, которые «по идее» должны были бы попасть в интервал (0.4995, 0.5005) оказываются равными РОВНО 0.5. Если взять очень маленький бин, то мы видим резкий пик в этом месте. Если взять бин покрупнее, то пики пропадают.

Очень хорошо, как такое в принципе может быть — мы разобрались. Теперь давайте посмотрим на данные выборов:



Слева — всем известный график, бин 0.25%. Видны пики на 50%, 60%, 65% и т.п. Справа — тот же график с бином 0.001%. Та-та! Мы ясно видим те самые артефакты, о которых шла речь выше. Красивые пики на 1/2, 2/3... и нули между пиками. Достаточно сравнить эти две картинки, чтобы понять, что пики слева, по крайней мере некоторые, и пики справа имеют совершенно разную природу. Пики справа (а) расположены на дробях с малыми знаменателями, (б) поэтому непериодичны, (в) уменьшаются с увеличением знаменателя дроби, (г) окружены нулями с обеих сторон, (д) видны только на  хорошем разрешении. Пики слева расположены на числах, кратных 5% (ясно видны пики на 60%, 65%, 70%, 75%, 80%, 85%, 95%), имеют примерно одинаковый размер (кроме 50%), не окружены нулями и видны на нормальном разрешении. Можно посчитать спектр и увидеть пик на гармонике 1/5, у меня это сделано в основной записи. У пиков справа такого нет. Вывод: слева видны фальсификации, справа — артефакты.

Единственное остающееся подозрение на артефакт — пик на 50%, он есть и справа, и слева. Что делать? А вот что: гениальный jemmybutton растолковал мне (спасибо ему за очень полезную дискуссию!), как одним махом избавиться от всех артефактов. Нужно к количеству бюллетеней за каждую партию на каждом участке добавить случайное число равномерно распределенное на (-0.5, 0.5). Понятно, что такая маленькая добавка результатов не изменит, но наши числа станут дробными и все артефакты сразу исчезнут. Три тонкости: (1) амплитуда шума должна быть именно 1, чтобы целиком покрыть значения между целыми числами, (2) я считаю результат 100 раз с разным шумом и усредняю, (3) на участках, где ЕР набрало ровно 100% голосов, я не добавляю шум, чтобы не размывать самое правое значение на графике (это всё равно не бин, а значение на границе бина). Для сравнения: прежняя кривая (черным) и исправленная кривая (красным):



Пик на 50% исчез бесследно, остальные остались. Мораль: при вычислении любых таких гистограмм, нужно добавлять к количеству голосов шум с амплитудой в 1 голос и средним 0. Картинку в основной записи я сейчас обновлю.

На самом деле человеку, который достаточно долго копался в этих данных (а я вот уже шесть дней только это и делаю), должно быть сразу понятно, что пики выше 50% — не артефакт. Привожу еще две картинки: слева — Северная Осетия, справа — Башкортостан. Бин 0.25%. Кто-нибудь будет думать, что это артефакт округления?



P.S. Природа пиков у других партий (кроме ЕР) ясно видна на графике Северной Осетии. Видите пик у коммунистов на 20%? Естественно, если почти на всех участках для ЕР рисуют 75%, то что-то нужно и для всех остальных нарисовать, не правда ли? Кстати, в Северной Осетии эти пики возникают только во Владикавказе, в деревне всё в порядке (интересно, почему). Но во Владикавказе — беспредел.

P.P.S. Теперь с исправленными пиками я наблюдаю стойкую корреляцию между суммарной высотой пиков в каждом регионе и приписанному к ЕР проценту. Ура! См. основную запись.

P.P.P.S. oude_rus с коллегой сделали симуляцию и пришли в итоге к таким же результатам: http://oude-rus.livejournal.com/548240.html.

Update

В комментариях (в разных ветках) несколько раз звучала мысль, что имеет смысл строить не гистограммы количества УИК в зависимости от процента ЕР, а гистограммы количества проголосовавших за ЕР в зависимости от процента. Если это сделать, то резкий пик на 50% даже и не возникает, и шумовая коррекция дает только минимальный эффект (вместо пика на 50% мы видим ступеньку и потом небольшой москвоский горбик); я точно не знаю почему, но подозреваю, что дело в том, что людей на пару порядков больше, чем УИК, поэтому эффект целочисленности уменьшается. Тем не менее, для порядка сделал шумовую коррекцию (100 итераций). Вот картинка и спектр:



Но в принципе еще не известно, какой график лучше. Как сказал, vasja_iz_aa, «единицей вранья является председатель УИК, а не избиратель».

Update 2
Вдохновленный результатами LHC, прикинул значимость этих пиков. См. здесь: http://kobak.livejournal.com/102825.html.

Update 3
zuntuglo предложил построить такую гистограмму для всех регионов, кроме регионов с т.н. «особой электоральной культурой» (его список: Кавказ, Башкортостан, Татарстан, Тува, Мордовия), потому что именно в этих регионах иногда наблюдаются особо жесткие пики. Это правда. Пожалуйста, вот эта гистограмма:



Заметьте, что всплеск после 90% ушел, но пики остались.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 145 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →