Dmitry Kobak (kobak) wrote,
Dmitry Kobak
kobak

ПЖиВ

Сходил в воскресение в посольство на выборы; простоял в очереди час (а люди, которые при мне выходили, говорили, что стояли два с половиной часа). Напротив посольства были развешены плакаты про жуликов и воров. Результаты по Лондону: проголосовали примерно 2000 человек, 40% за Яблоко (а у ЕР — 10%). [Update: смешная статья из скандального Коммерсанта о выборах в Лондоне.]

Оказывается, на сайте ЦИК доступны результаты выборов по всем участковым избирательным комиссиям (их по России примерно 95 тысяч). И нехитрый статистический анализ этих данных показывает масштабы фальсификаций. Система изложена на сайте Эсквайра (http://esquire.ru/elections) и вот здесь в Троицком Варианте, и предварительные результаты по этим выборам уже лежат у podmoskovnik, oude_rus и shipilev. Последний из этих благородных юзеров написал скрипт для выкачивания данных с сайта ЦИК и выложил получившуюся таблицу. Я ее скачал и немного покрутил эти цифирки в матлабе, не смог удержаться. Чтобы результаты не пропадали, выкладываю под катом несколько красивых картинок и «настоящие» результаты выборов (в т.ч. статистика жульничества по регионам).


[Update: Свежие данные доступны в очень удобном формате на сайте http://www.kartaitogov.ru/. На данный момент там обработано 65559968 бюллетеней; я обновил все графики и числа в этой записи на более новые.]

Итак, есть 95066 участковых избирательных комиссий (УИК). Посчитаем для каждой из них, во-первых, явку, а во-вторых, процент, набранный каждой из семи партий. Вот на этом графике для каждой партии отмечено распределение УИКов: по горизонтали — явка, по вертикали — результат этой партии. Одна точечка — один УИК.



Что мы видим? Мы видим, что явка колеблется где-то от 30 до 100 процентов. И если взять, например, ЛДПР, то ее результат не особо зависит от явки, то есть на всех УИКах (вне зависимости от явки) ЛДПР набирает примерно где-то процентов 15. Облако точечек расположено горизонтально. Но картинка для Единой России выглядит по-другому: есть явная корреляция между явкой и результатом, и в тех УИКах, где явка приближается к 100 процентам, результаты ЕР тоже приближаются к 100%. Это крайне подозрительно, потому что легко может объясняться вбросом бюллетеней за ЕР на некоторых участках (на этих участках одновременно возрастет и явка, и процент за ЕР).

Вот та же картинка, но вместо точек количество УИКов обозначено цветом. Разрешение по обеим осям 1%, красный цвет — 150 УИКов и выше.



Опять же: в честных выборах картинка для каждой партии должна, по идее, выглядеть как комета, летящая влево, с горизонтально вытянутым хвостом. А у кометы Единой России хвост наклонен почти под 45 градусов. [Update: после примерно десятой претензии в комментариях поясняю. Такое распределение не «доказывает» наличие вбросов. Но оно идеально *согласуется* с гипотезой о вбросах — а о том, что эта гипотеза весьма правдоподобна, мы знаем из других источников (свидетельства очевидцев, расхождение официальных результатов с экзит-поллами, огромная разница в некоторых регионах на участках с КОИБами и без и т.п.). Таким образом эти данные придают нам еще большую уверенность в справедливости этой гипотезы и, если мы ее примем, позволяют оценить масштаб фальсификаций.]

Вот те же данные в другом виде: гистограммы количества УИКов, на которых партии набрали столько-то голосов (голоса по горизонтали). По-человечески везде должны быть гауссианы, а теперь посмотрите на картинку для Единой России. В правом нижнем углу гистограмма явок по УИКам. Опять же, вместо гауссианы мы видим неожиданно большое количество УИКов с подозрительно высокой явкой. [Update: и снова пояснение. Некоторые думают, что отклонение от гауссианы может возникать и без вбросов. В принципе может, но вот сравните с европейскими выборами, там почти везде идеальные гауссианы, даже в Польше, где разделение на город и село похоже на наше. Так или иначе, дальнейший анализ предположение о гауссиане не использует.]



Всё это очень подозрительно (см. также внизу апдейт номер один) и подтверждает наши подозрения в массовой фальсификации. Можно ли как-то оценить результаты без подтасовок? Можно. Для этого можно просто отбросить УИКи с подозрительно высокой явкой. На картинке ниже слева изображены результаты каждой партии в зависимости от пороговой явки, выше которой я отбрасывал результаты. Черная кривая — ЕР, красная — КПРФ, зеленая — Яблоко. Официальные результаты — это результаты при пороге в 100% (без отбрасывания). Видно, что результы ЕР достигают минимума, а остальных партий примерно максимума при пороге около 50%. На графике справа — общее количество поданных голосов в зависимости от порога (по вертикали — десятки миллионов человек, общая явка — примерно 55 млн). Если взять порог в 60%, то мы охватим половину пришедших на выборы избирателей.



Официальные результаты по партиям: 13 12 1 19 3 49 1
Результаты при пороге 50%: 18 16 1 24 5 34 1
При пороге в 60%: 18 15 1 23 5 36 1

Здесь однако может возникнуть подозрение, что я всё чрезмерно упрощаю. В разных регионах результаты могут быть очень разные, а этот анализ этого не учитывает. Так что давайте посмотрим на отдельные регионы. Причем в каждом регионе мы будем смотреть по-отдельности на городские и деревенские результаты, потому что они в принципе могут сильно отличаться (см. ниже). На следующей картинке слева изображены кривые (зависимость результата от порога) для ЕР по всем 83 регионам РФ: красным цветом — город, зеленым — деревня (село). Кривые начинаются с порога, при котором число избирателей превышает 10000 (иначе в начале они слишком сильно скачут). Зарубежные территории здесь не изображены, а все шесть Кавказских республик объединены в одну (см. ниже).



[Update: по просьбе _ab_ выкладываю список регионов, отсортированный по количеству приписок в городах; на графике видно, что многие красные линии горизонтальны, то есть в городах фальсификаций не было. Но кое-где творилось полная жуть, конечно.]

Теперь давайте для каждого региона посчитаем индекс жульничества: возьмем официальный результат и «реальный» результат (минимум на этой кривой для города и деревни по отдельности, результаты объединяем). Можно поделить одно на другое, а можно отнять одно от другого; две получившиеся гистограммы по регионам изображены справа.

Мы видим, что регионы очень разные. Есть честные, есть жульнические. В Петербурге в результате подтасовок ЕР получила дополнительных 4% — в целом, неплохой результат. А у Москвы результат чудовищный — 16%, один из худших по стране. Хорошо бы кто-нибудь нанес эти числа на карту России. См. гистограмму ниже.

Если для каждого региона (в городе и в деревне) выбрать свой порог явки (где у ЕР минимальный результат) и потом всё просуммировать с правильными весами (см. ниже), то общий результат по стране будет такой:
16 14 1 23 4 38 1,
что почти не отличается от более простого анализа.

Итого. На самом деле у ЕР не 49%, а примерно 38%, а у КПРФ, ЛДПР и СР — на 3-4% больше, чем объявлено. То есть ЕР победила бы и без вбросов, а Яблоко не прошло бы, даже если бы вбросов не было. А результатам экзит-поллов ВЦИОМа и ФОМа (согласно которым у ЕР 49% и 46%), вероятно, доверять не следует.

[NB: ФОМовский результат на 18 вечера, который они теперь скрывают, — 43%, и 30% спрошенных не ответило на вопрос].


Update1 (7.12):

oude_rus обнаружил, что в распределении УИКов по результату ЕР есть пики на круглых числах: 65%, 70%, 85% и т.д. (т.н. «борода Чурова») Подтверждаю, плюс делаю анализ по отдельным регионам. Внизу слева — тот же график, что и у по ссылке. На графике для ЕР невооруженным глазом видны спайки на числах, кратных 5% (размер бина 0.25%). NB: эти пики становятся гораздо более заметными на гистограмме не количества УИК, а числа проголосовавших за ЕР, см. апдейт 8.



[Update (12.12): внимание, очень важно! Мы с коллегами раньше думали, что самый большой пик расположен на 50%. Графики с этим пиком разошлись по интернету и даже были напечатаны на плакатах во время недавнего митинга в Москве. Теперь выяснилось, что резкого пика на 50% нет! Выше изображена правильная кривая, пики только начиная с 65%. Подробности здесь: http://kobak.livejournal.com/102646.html. ]

Для знатоков: внизу справа — разложение кривой ЕР (бин 0.5) в ряд Фурье. Максимум на 0.2 — это как раз наши пики, потому что 1/5=0.2. И дальше видны кратные гармоники.

Дальше я сделал тот же анализ для каждого региона отдельно (кроме зарубежных территорий и Кавказа), подсчитывая суммарную высоту пиков на числах кратных 5% от 50% до 95% (высота пика = разница между значением, например, в 75% и средним между 74% и 76%). Гистограмма по регионам на следующем графике слева наверху, а слева внизу — попытка увидеть корреляцию между суммарным размером пиков и приписанным к ЕР процентам. Регион, лидирующий по размеру пиков с большим отрывом, — это Башкортостан (см. график справа), где три гигантских спайка на 75%, 85% и 95%. Там наверняка думали, что если они не будут рисовать 80, 90 и 100%, то никто ничего не заметит. Смешно! Корреляция получается 0.43 (р<0.001), а без Башкортостана 0.34 (р=0.002).



Update 2 (9.12)

Гистограмма результатов ЕР по регионам РФ (их 84, потому что есть «Зарубежные территории»). Регионы отсортированы по алфавиту (см. список в комментариях). Красная часть столбика — вбросы. Самый высокий пик — Чечня (99%), там мой анализ не способен ничего скорректировать, потому что все УИКи одинаково плохие. [Update: насчет Кавказа см. ниже.]



Иллюстрация номер 5 существенно изменилась по сравнению с первой версией, посмотрите сверху (там, где мешанина красных и зеленых спагетти). Теперь я там разделяю город и деревню. Зачем? Потому что голосовать они могут очень по-разному. На графике ниже слева изображены все УИКи по числу приписанных к ним избирателей (по горизонтали) и явке (по вертикали). Невооруженным глазом видны несколько кластеров (это тоже первым обнаружил oude_rus). Я отобрал все городские ТИКи (ТИКи Питера и Москвы, плюс все, в названии которых есть слова «городская», «пгт», «ЗАТО» или запятая), и все УИКи внутри них считаю городскими, а остальные — сельскими. Следующие два графика показывают распределения отдельно по городу и селу, и мы видим, что кластеры как раз разделились.



Глава ЦИК Чуров, между прочим, написал в свое время статью с «опровержением» построений podmoskovnik’а. Главная мысль статьи: распределение по явке не похоже на гауссово, потому что оно есть сумма двух гауссиан — городской и деревенской. В доказательство он приводил графики, построенные на неизвестно как отобранных данных: http://cikrf.ru/banners/illuziya/itogi_160908.html. Давайте проверим. На графиках внизу я разделяю гистограмму явки на две: город и деревня (городские участки — это все участки Питера, Москвы, плюс все участки ТИК, в названии которых встречается запятая или слова "городская", "пгт", "ЗАТО", "г."). Слева — количество УИКов, справа — количество проголосовавших.



Эффект, описанный Чуровым, подтвердить не удается. [Update: уточненение! На моих графиках ясно видно, что город и деревня различаются. В этом смысле Чуров с соавторами прав. И именно поэтому я провожу мою коррекцию отдельно для города и деревни в каждом регионе. Но вот такого эффекта, как у Чурова в статье, когда город и деревня описываются красивыми гауссианами с разными средними, — такого я не вижу.]

Ну и напоследок: «комета» ЕР, разложенная на 84 региона! По ссылке открывается ОГРОМНАЯ картинка, которую можно долго изучать (на большой картинке регионы подписаны). Очень рекомендую! Трудно оторваться от разглядывания.



Update:
Та же картинка, разложенная на город и село (тут видно, что корреляция явка-результат часто возникает только на селе, то есть хвост кометы — это село).
Та же картинка с разложением на город и село и отмеченными КОИБами.

Update (29.12):
Корреляция видна не только на уровне регионов, но в отдельных ТИК, причем если посчитать среднюю корреляцию по всем ТИК полурегиона (городской или сельской части региона), то она хорошо коррелирует с корреляцией, посчитанной по всему полурегиону, см. здесь: http://kobak.livejournal.com/101512.html?thread=1769864#t1769864. Это означает, что корреляция между явкой и результатом ЕР — это не артефакт объединения разных ТИК, чего можно было бы в принципе опасаться.

Update 3 (10.12)
Ответы на часто задаваемые вопросы: http://kobak.livejournal.com/102279.html.

Update 4 (11.12)
Заапдейтил первый апдейт, добавил ряд Фурье и график для Башкортостана. Обновил огромную картинку с разложением кометы по регионам, там теперь есть подписи.

Update 5 (11.12)
По поводу Кавказа: если внимательно изучить мегакартинку со всеми регионами, то станет ясно, что на Кавказе выборов почти не было и корректировать там нечего. Но сегодня я нашел решение: по неизвестной причине голосование в сельской местности Северной Осетии выглядит вполне по-человечески (при этом во Владикавказе полная жесть: почти на всех участках у ЕР *ровно* 75%). Поэтому я объединил весь Кавказ в один метарегион (это Чечня, Ингушетия, Дагестан, Северная Осетия, Карачаево-Черкесия и Кабардино-Балкария), город и деревня вместе, и провел мой анализ на этом регионе. В итоге там у ЕР получается 48%. Этот результат я считал истинным для всех шести республик.

Этот расчет дает итоговый результат для ЕР по стране 38%. Если Кавказ просто исключить (приписать ему вес 0), то этот результат не меняется, всё равно 38% (ну то есть точное число меняется, конечно, но незначительно).

По поводу суммирования (никому не нужные подробности, не читайте!): тут нужна аккуратность. В каждом регионе, городе и деревне отдельно, я нахожу «настоящий» результат за ЕР, достигаемый при определенной явке. После этого я считаю, что на всех отброшенных УИК была именно это явка, и подсчитываю общее «настоящее» число проголосовавших в этом регионе (городе/деревне). Это число является весом этого региона (два числа: для города и деревни). И дальше все суммирования происходят с этими весами.

[Update (14.12): добавил в алгоритм новое ограничение: граница по явке в деревне в каждом регионе не может быть ниже, чем граница по явке в городе. Так лучше, иначе в некоторых регионах алгоритм отсекает почти всю деревню целиком. Итоговая цифра изменилась с 37% на 38%.]

Update 6 (11.12)
Сергей Шпилькин podmoskovnik пользуется немного другим алгоритмом для коррекции (см. выше в Эсквайре или Троицком Варианте). Я тоже так посчитал. Мы строим гистограммы количества голосов за ЕР и за все остальные партии в сумме в зависимости от явки (по всей России). Они изображены слева. Видно, что где-то до 50% процентов они отличаются на коэффициент, а потом ЕР подозрительно растет. Выделим «нормальную» часть голосов за ЕР, подобрав правильный коэффициент (я минимизировал средне-квадратичное отклонение на явке от 0 до 50%). Это будет пунктирная линия справа. Разница — аномальная часть голосов за ЕР, я закрасил ее красным цветом.



Аномальную часть можно вычесть и пересчитать итоги выборов. Получится:
17 15 1 25 4 34 1
то есть у ЕР 34%. Этот анализ сделан по всей стране, поэтому к нему можно предъявить все претензии о неоднородности регионов, города и деревни и проч. Поэтому я прогнал точно такое же вычисление по всем регионам, отдельно по городам и селу (с объединенным Кавказом, см. выше). См. похожий расчет у dmitrykogan вот здесь. Техническая деталь: для каждого региона я брал явку, до которой общее кол-во бюллетеней составляет четверть от общего кол-ва бюллетеней в полругиеоние, и искал коэффициент для нормальной части голосов, минимизируя средне-квадратичное отклонение (на Кавказе я руками установил границу по явке на 75%). Объединяя все результаты с правильными весами, мы получаем:
20 17 3 28 6 32 1
16 14 1 23 4 39 1
то есть у ЕР 39%.
Update (29.12): у меня тут было несколько неаккуратностей в алгоритме, после исправления всё встало на свои места. Думаю, именно этот анализ оптимальный.

Update 7 (12.12)
vmenshov сформулировал и опроверг одну из «теорий» о возможном поведении электората, которыми некоторые пытаются объяснить наши графики (сверхактивный малый электорат оппозиционных партий и вялый, но превалирующий электорат ЕР). Такая теория не согласуется с данными. См. http://vmenshov.livejournal.com/15794.html.

Update 8 (12.12)
По жж ходят ссылки на несколько записей, где утверждается, что пики на круглых числах могут быть не свидетельством фальсификаций, а артефактом, т.е. возникают и без фальсификаций. Мы общими усилиями разобрались в ситуации, и теперь я могу утверждать наверное: резкого пика на 50% НЕТ, но все остальные пики — это не артефакт, а реальность. Подробности здесь: http://kobak.livejournal.com/102646.html. Кроме того, там есть гистограмма количества проголосовавших за ЕР в зависимости от результата ЕР, и на ней пики еще более ярко выражены.

Update 9 (13.12)
Кто-то не поленился и сделал гистограммы количества УИК по голосам за партии по ВСЕМ регионам страны с выделением городов. Размер бина 1%, так что артефактов не должно быть (ну или почти не должно быть). Рекомендую в справочных целях:
http://mikolaichuk.byethost32.com/

(ссылка больше не работает, к сожалению)

Update 10 (13.12)
Обнаружилась любопытная особенность голосования в республике Дагестан: http://gegmopo4.livejournal.com/72536.html.

Update 11 (13.12)
Вдохновленный результатами LHC, прикинул статистическую значимость пиков на круглых числах. У одного из пиков 10 сигм, у пяти пиков — порядка 17 сигм. Хихи. Подробности здесь: http://kobak.livejournal.com/102825.html.

Update 12 (14.12)
Огромное спасибо _ab_, который по моей просьбе нарисовал в какой-то специальной программе карту регионов России, где цветом отмечена моя оценка того, сколько процентов в этом регионе пририсовали за ЕР. Сам он призывает этой оценке доверять не слишком. Я отметил шесть регионов Северного Кавказа точечеками, чтобы показать, что там оценкам особенно не следует доверять.



Update: kireev взял за основу результаты dmitrykogan (см. апдейт номер 6) и тоже нарисовал карту (http://kireev.livejournal.com/714400.html). Вот она:



Update 13 (17.12)
Нашлись вполне приличные страны, где тоже есть корреляция между явкой и результатом партий (и явка распределена сильно негауссово). При этом в Германии (первая ссылка), если разложить страну на отдельные регионы, то корреляция практически пропадает и явка в каждой земле становится гауссовой. Но в Израиле (вторая ссылка) и Британии (третья ссылка) не так. Имейте в виду, что в Израиле при этом очень сложное и перемешанное общество, а в Британии мажоритарные выборы; но тем не менее.
http://jemmybutton.livejournal.com/1359.html
http://levrrr.livejournal.com/31427.html
http://users.livejournal.com/_ab_/139002.html

Update 14 (17.12)
Обработаны участки с КОИБами! Все подробности здесь: http://kobak.livejournal.com/103331.html. Ситуация только дополнительно запуталась. В среднем участки с коибами по каждому региону дают результат за ЕР ниже, чем участки без коибов. Но ниже всего на 6-7%. При этом есть регионы, где сильная корреляция явка-результат видна и на участках с коибами. Выводы можно делать разные, подробности по ссылке. oude_rus ввел термин «коибатость»: разница между результатов ЕР на участках с коибами и на участках без коибов. В рейтинге городской локальной коибатости (см. подробности по ссылке) лидируют Астрахань, Магнитогорск и Сыктывкар. На четвертом месте находится Москва.

Update 15 (19.12)
Здесь я буду собирать ссылки на разные наблюдения о региональной специфике.
* http://aillarionov.livejournal.com/368898.html?thread=19285250#t19285250 -- Тольятти и Самара (несколько кластеров в Самаре, и все честно в Тольятти).
* http://kobak.livejournal.com/103654.html?thread=1775334#t1775334 -- пояснение о Самарских кластерах.
* http://oude-rus.livejournal.com/545739.html -- Сыктывкар и КОИБы.
* http://abuzin.livejournal.com/87116.html -- Магнитогорск.
* http://kireev.livejournal.com/708953.html -- еще раз Магнитогорск.
* http://kireev.livejournal.com/709382.html -- странности с результатами Яблока по Москве.
* http://kireev.livejournal.com/701704.html -- про экзит-полл ФОМа.
* http://rksmb.org/get.php?5011 -- здесь все московские УИК расположили в трехмерном пространстве (явка, результат ЕР, результат Яблока) и разложили EM-алгоритмом на два кластера. А kireev нарисовал карту районов Москвы, раскрашенных в соответствии с долей участков каждого кластера: http://kireev.livejournal.com/715493.html. Очень полезная и очень убедительная работа.
* http://myugor.livejournal.com/20253.html?thread=52509#t52509 -- Нижний Новгород, официальные протоколы и копии у наблюдателей.
* http://oude-rus.livejournal.com/556502.html -- есть участки, где протоколы переписаны в пользу Правого дела (фальсификаторы ошиблись полем), это очень смешно.
* http://kireev.livejournal.com/720076.html и http://kireev.livejournal.com/720958.html -- Владикваказ и Кабардино-Балкария.
* http://kireev.livejournal.com/721248.html -- Пермский край и Нижегородская область на выборах 2007 и 2011, сравнение.

Update 15 (20.12)
А здесь будут ссылки на полезные сайты:
* http://russian-election.appspot.com/
* http://www.kartaitogov.ru/
* https://ruelect.com/

Update 16 (23.12)
Небезынтересно посмотреть на то, как выглядела корреляция между явкой и результатом правящей партии на предыдущих выборах. Андрей Илларионов повесил у себя хороший график: коэффициенты корреляции и регрессии на выборах с 1991 года. Там, кажется, сосчитано на уровне регионов, что не очень-то хорошо (надо по участкам считать), но динамика всё равно видна хорошо, рекомендую: http://aillarionov.livejournal.com/372563.html (эта запись почему-то исчезла, так что см. http://aillarionov.livejournal.com/371465.html).

Update 17 (29.12)
vladislav_01 взял с ruelect.com данные по Нижнему Новгороду (где они наиболее полные) и нанес их на диаграмму явку-результат:

Получилась дивная иллюстрация к тому, как возникает корреляция в результате фальсификаций. Обратите внимание, что без фальсификаций корреляция ОТРИЦАТЕЛЬНАЯ. Впрочем, должен сказать, что такая красота видна только в Нижнем Новгороде: у jemmybutton лежат картинки по Питеру и Москве, и там такой четкости нет (http://jemmybutton.livejournal.com/1359.html). Но по Москве гораздо меньше данных, чем по Нижнему (и не исключено, что в Москве все решали вбросы, которые на ruelect не видны).
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 394 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →