Итак, на известных картинках с распределением количества УИК по голосам ЕР видны пики на «круглых» числах. Вот, например (из журнала

Но разные люди проделали симуляции и обнаружили, что похожие пики возникают и без всяких фальсификаций. Вот например:
http://jemmybutton.livejournal.com/1
http://singpost.livejournal.com/11326.h
http://users.livejournal.com/_winnie/32
Я когда это вчера увидел, то ничего не понял. Для таких же тупых, как и я, объясняю. Возьмем два случайных числа A и B, выбранных от 1 до 500 (распределение равномерное), и сосчитаем C=A/(A+B). Повторим это 100000 раз и построим гистограмму значений С c очень маленьким бином (0.0001). Результат слева:

Ожидаемый в среднем результат я нарисовал красной линией. Как видно, появляются пики на 1/2, 1/3, 2/3 и т.д. — на дробях с малыми знаменателями. Почему, спросите вы? Отвечаю: давайте посмотрим внимательно на пик на 1/2 (на графике справа). Всё становится понятно: никакое число со знаменателем меньше 500 не может попасть в интервалы примерно (0.4995, 0.5) и (0.5, 0.5005). Поэтому там наша функция зануляется. А все значения, которые «по идее» должны были бы попасть в интервал (0.4995, 0.5005) оказываются равными РОВНО 0.5. Если взять очень маленький бин, то мы видим резкий пик в этом месте. Если взять бин покрупнее, то пики пропадают.
Очень хорошо, как такое в принципе может быть — мы разобрались. Теперь давайте посмотрим на данные выборов:

Слева — всем известный график, бин 0.25%. Видны пики на 50%, 60%, 65% и т.п. Справа — тот же график с бином 0.001%. Та-та! Мы ясно видим те самые артефакты, о которых шла речь выше. Красивые пики на 1/2, 2/3... и нули между пиками. Достаточно сравнить эти две картинки, чтобы понять, что пики слева, по крайней мере некоторые, и пики справа имеют совершенно разную природу. Пики справа (а) расположены на дробях с малыми знаменателями, (б) поэтому непериодичны, (в) уменьшаются с увеличением знаменателя дроби, (г) окружены нулями с обеих сторон, (д) видны только на хорошем разрешении. Пики слева расположены на числах, кратных 5% (ясно видны пики на 60%, 65%, 70%, 75%, 80%, 85%, 95%), имеют примерно одинаковый размер (кроме 50%), не окружены нулями и видны на нормальном разрешении. Можно посчитать спектр и увидеть пик на гармонике 1/5, у меня это сделано в основной записи. У пиков справа такого нет. Вывод: слева видны фальсификации, справа — артефакты.
Единственное остающееся подозрение на артефакт — пик на 50%, он есть и справа, и слева. Что делать? А вот что: гениальный растолковал мне (спасибо ему за очень полезную дискуссию!), как одним махом избавиться от всех артефактов. Нужно к количеству бюллетеней за каждую партию на каждом участке добавить случайное число равномерно распределенное на (-0.5, 0.5). Понятно, что такая маленькая добавка результатов не изменит, но наши числа станут дробными и все артефакты сразу исчезнут. Три тонкости: (1) амплитуда шума должна быть именно 1, чтобы целиком покрыть значения между целыми числами, (2) я считаю результат 100 раз с разным шумом и усредняю, (3) на участках, где ЕР набрало ровно 100% голосов, я не добавляю шум, чтобы не размывать самое правое значение на графике (это всё равно не бин, а значение на границе бина). Для сравнения: прежняя кривая (черным) и исправленная кривая (красным):

Пик на 50% исчез бесследно, остальные остались. Мораль: при вычислении любых таких гистограмм, нужно добавлять к количеству голосов шум с амплитудой в 1 голос и средним 0. Картинку в основной записи я сейчас обновлю.
На самом деле человеку, который достаточно долго копался в этих данных (а я вот уже шесть дней только это и делаю), должно быть сразу понятно, что пики выше 50% — не артефакт. Привожу еще две картинки: слева — Северная Осетия, справа — Башкортостан. Бин 0.25%. Кто-нибудь будет думать, что это артефакт округления?

P.S. Природа пиков у других партий (кроме ЕР) ясно видна на графике Северной Осетии. Видите пик у коммунистов на 20%? Естественно, если почти на всех участках для ЕР рисуют 75%, то что-то нужно и для всех остальных нарисовать, не правда ли? Кстати, в Северной Осетии эти пики возникают только во Владикавказе, в деревне всё в порядке (интересно, почему). Но во Владикавказе — беспредел.
P.P.S. Теперь с исправленными пиками я наблюдаю стойкую корреляцию между суммарной высотой пиков в каждом регионе и приписанному к ЕР проценту. Ура! См. основную запись.
P.P.P.S.
Update
В комментариях (в разных ветках) несколько раз звучала мысль, что имеет смысл строить не гистограммы количества УИК в зависимости от процента ЕР, а гистограммы количества проголосовавших за ЕР в зависимости от процента. Если это сделать, то резкий пик на 50% даже и не возникает, и шумовая коррекция дает только минимальный эффект (вместо пика на 50% мы видим ступеньку и потом небольшой москвоский горбик); я точно не знаю почему, но подозреваю, что дело в том, что людей на пару порядков больше, чем УИК, поэтому эффект целочисленности уменьшается. Тем не менее, для порядка сделал шумовую коррекцию (100 итераций). Вот картинка и спектр:

Но в принципе еще не известно, какой график лучше. Как сказал,
Update 2
Вдохновленный результатами LHC, прикинул значимость этих пиков. См. здесь: http://kobak.livejournal.com/102825.htm
Update 3

Заметьте, что всплеск после 90% ушел, но пики остались.
← Ctrl← Alt
Ctrl →Alt →
December 12 2011, 12:51:50 UTC 5 months ago
Одно вниз, а другое вверх.
Это чтобы посмотреть влияние вида кривой и убрать вопросы.
December 12 2011, 12:54:18 UTC 5 months ago
5 months ago
5 months ago
5 months ago
December 12 2011, 13:11:29 UTC 5 months ago
Anonymous
December 12 2011, 15:04:31 UTC 5 months ago
(интересно, почему).
Если Вам интересно, расскажу. У меня жена -учительница в средней школе и ее загнали на УИК.Вот: ТИК Левобережной части г.Владикавказа.
http://www.n_osset-alania.vybory.izbirko
№ 340 КПРФ 19.24% ЕР 74.05%
№ 341 КПРФ 74.27% ЕР 20.07%
Избирательный участок № 340 - СОШ № 42, ул. Весенняя, 6.
Избирательный участок № 341 - СОШ № 42, ул. Весенняя, 6.
На 341 участке был очень говнистый наблюдатель от КПРФ, там зачем-то считали бюллетени. На 340-м, где собственно, жена и сидела, не считали, директор школы просто заполнила протокол. На предложение жены посчитать остальные члены комиссии напомнили: "не у всех мужья могут покупать им машины, и вообще, у тебя трое детей дома, тебе делать нечего?"
December 12 2011, 15:12:09 UTC 5 months ago
Но то, что Вы говорите -- потрясающе. Я вижу в этом ТИК еще один (всего один) участок, где у ЕР 20%, это № 311. Не знаете, а там что было? Вообще, у меня появилась идея: надо как-то находить председателей УИК, которые посчитали всё честно посреди кромешных подтасовок (вот как на участках 341 и 311) и прославлять, это же герои.
И кстати -- значит ли это, что во Владикавказе настоящая поддержка ЕР всего около 20%? Можно ли экстраполировать с этих двух участков?
5 months ago
5 months ago
Anonymous
5 months ago
Anonymous
5 months ago
Anonymous
5 months ago
5 months ago
5 months ago
December 12 2011, 15:35:59 UTC 5 months ago
http://jemmybutton.livejournal.com/1
Так что мне все-таки до сих пор неочевидно, насколько сильно дискретность влияет на основной график (т.е. какая доля там фальсификаций)
December 12 2011, 15:38:01 UTC 5 months ago
Я только что обновил запись, добавив туда скорректированную шумом гистограмму -- посмотрите. Должна ответить на Ваш вопрос.
5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
December 12 2011, 15:49:22 UTC 5 months ago
ну здасьте, а что это такое я вижу на красном графике? натуральный пик, только выглядит немного по-другому. И я даже могу сказать, откуда он взялся: из Москвы приехал.
December 12 2011, 15:53:12 UTC 5 months ago
Anonymous
5 months ago
December 12 2011, 16:21:24 UTC 5 months ago
December 13 2011, 01:45:47 UTC 5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
December 12 2011, 16:49:20 UTC 5 months ago
December 12 2011, 16:52:07 UTC 5 months ago
http://ru.wikipedia.org/wiki/%D0%97%D
5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
December 12 2011, 17:11:50 UTC 5 months ago
December 12 2011, 17:50:11 UTC 5 months ago
А Вы НЕ задумались
А Вы НЕ задумались, что А уже НЕ случайно (иначе бы у КПРФ и СР были бы пики соответствующие на 50%)?Такой высоты пик у ЕР на 50% может быть только если партия набрала около 50% тоже.
Написано же : "посмеяться"!
December 12 2011, 17:52:38 UTC 5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
Anonymous
December 12 2011, 18:08:34 UTC 5 months ago
устраняя "артефакт" (но не целочисленного деления, а целочисленного распределения, если быть точным) шумом - вы также устраняете и эффект натягивание до тех же целых чисел за счёт психологии.
поэтому надо не устранять шумом, а вычитать из реального артефачный - сглаженную кривую воспринять как вероятность, обратно кинуть её на целые числа, обсчитать т.н. "артефакты", и вычесть их из реальной, несглаженной.
если психология порылась - то артефачные пики будут ниже реальных.
мне так кажется
December 12 2011, 18:11:53 UTC 5 months ago
Замену "деления" на "распределения" принимаю, сейчас исправлю, спасибо.
5 months ago
Anonymous
5 months ago
5 months ago
Anonymous
5 months ago
5 months ago
December 12 2011, 18:37:43 UTC 5 months ago
Секеи
Г. Секеи, Парадоксы в теории вероятностей и математической статистике (русское издание,1988)December 12 2011, 18:59:02 UTC 5 months ago
December 12 2011, 19:48:19 UTC 5 months ago
December 13 2011, 05:44:01 UTC 5 months ago
Подробный анализ всех эффектов
http://eruditor.ru/k/?15December 13 2011, 11:12:54 UTC 5 months ago
Про результаты выборов в Англии ничего не могу сказать, давайте сначала с пиками разберемся.
Deleted comment
5 months ago
5 months ago
December 13 2011, 08:17:08 UTC 5 months ago
>> может попасть в интервалы примерно (0.4995, 0.5) и (0.5, 0.5005).
>> Поэтому там наша функция зануляется.
Не совсем так.
Возьмите 10000000 рациональных дробей m/n, гда (m n) - случайный вектор, компоненты которого принимают целые значения, равномерно распределенные на множестве, к примеру, {n>0, n<=2000, m>0, m<=n}.
И посмотрите на плотность распределения значений этих дробей. Некоторые из них будут сокращаться и при этом естественным образом начнут совпадать с другими. Все числа, у которых числитель случайно окажется ровно в два раза больше знаменателя, дадут пик на значении 0.5, все числа у которых числитель и значенатель относятся как 2 к 3 дадут пик (уже меньший) на значении 0.67 и т.д. Чем "красивее" дробь тем больше вероятность, что в наша величина m/n сократится именно до такой дроби.
Точно рассчитывать вероятности или строить численный пример я ленюсь...
December 13 2011, 08:54:37 UTC 5 months ago
December 13 2011, 10:52:32 UTC 5 months ago
В Питере все гораздо приличнее.
December 13 2011, 10:07:03 UTC 5 months ago
Оригинал взят у
Партия "Единая Россия" набрала по 43-му избирательному округу в Законодательное собрание всего 3,03% голосов. Такие данные приводит петербургский избирком на своем сайте.
Победителем стал кандидат от ЛДПР Геннадий Волчек – свои симпатии ему выразили почти 34,1% избирателей.
Также по этому округу баллотировались Евгений Никольский от "Единой России", эсер Андрей Горшечников, коммунист Сергей Веснов, Ольга Цепилова от партии "Яблоко", а также Алексей Еремин от "Правого дела" и Виталий Симонов от "Патриотов России".
"Единая Россия" во главе с Никольским смогла привлечь в этом округе только 959 голосов. Для сравнения: ближайший конкурент Никольского, яблочница Ольга Цепилова набрала 4720 голосов, Веснов – 5252 голоса, Горшечников – 9211 голосов, а победитель Геннадий Волчек – 10771 голос.
Интересно, что согласно первым протоколам, у единороссов в этом округе было 25,83% голосов, что на 22,3% выше окончательных итогов. А вот у ЛДПР на выборах в ЗакС всего 11,4, что на 22,68% ниже результата, озвученного сегодня. Объяснить эту метаморфозу корреспонденту ЗАКС.Ру пока не удается – ни Никольский, ни Волчек не отвечают на телефонные звонки.
----------------------------------------
А рекордсменом по 43 территории стал УИК 1430. "Единая Россия" получила на этом участке 1,5% голосов.
Так что Усть-Ижора не рекордсмен по опусканию Едра.
Однако, это уже театр абсурда. С молчаливого согласия городской избирательной комиссии идет наглая торговля протоколами УИК.
А кто-то говорит: "Не раскачивайте галеру"!
December 13 2011, 10:36:09 UTC 5 months ago
Участков с 1-2 избирателями не бывает.
Возьмите X/Y X - [0,Y], Y - [100, 1500]
И посмотрите, насколько уменьшатся пики.
December 13 2011, 10:50:56 UTC 5 months ago
Я не буду этого делать (не вижу смысла), но кто-то пробовал -- и вроде бы да, если маленькие участки отбросить, артефакты уменьшаются. Настоящие пики остаются, разумеется.
December 13 2011, 19:46:04 UTC 5 months ago
Вот тут пики на "хороших" дробях тоже объясняются артефактами - но Ваш пост эти рассуждения опровергает, как я понял. Но по ссылке есть и еще кое-что - диаграмма рассеяния голосов за партии для выборов в Англии в 2010 г. И - сюрприз - есть сильная корреляция % голосов за консерваторов и лейбористов в зависимости от явки. Я проверил по исходному файлу, вроде верно. Как бы это объяснить? Хотя замечу, что распределение избирательных округов по явке - хорошая, "острая" гауссиана без всяких выбросов.
И технический вопрос - как в Excel построить гистограмму количества голосов от явки (с произвольным бином)?
December 13 2011, 21:06:17 UTC 5 months ago
Про эксель ничего не знаю, не пользуюсь.
5 months ago
5 months ago
5 months ago
5 months ago
5 months ago
December 14 2011, 14:07:44 UTC 5 months ago
December 14 2011, 14:13:06 UTC 5 months ago
Anonymous
5 months ago
December 14 2011, 14:32:24 UTC 5 months ago
December 15 2011, 11:01:15 UTC 5 months ago
дались вам эти пики
суть не в пикахсуть в "правом хвосте" ПЖиВ
December 15 2011, 11:13:32 UTC 5 months ago
Re: дались вам эти пики
Дело в том, что правый хвост можно пытаться как-то объяснить без фальсификаций (и многие пытаются). Пики так объяснить невозможно.5 months ago
Deleted comment
December 15 2011, 13:39:49 UTC 5 months ago
5 months ago
5 months ago
5 months ago
December 15 2011, 11:47:54 UTC 5 months ago
Решение вопроса - равномерная размазка значения в бине по ширине бина. Это убирает артефактную гребенку.
December 15 2011, 13:34:43 UTC 5 months ago
Anonymous
5 months ago
December 15 2011, 13:48:22 UTC 5 months ago
Ещё более 2 млн - выше 95.9%.
Это - разница между большинством и первым местом в Думе
December 15 2011, 13:56:00 UTC 5 months ago
5 months ago
5 months ago
← Ctrl← Alt
Ctrl →Alt →