profile

2019 / твипринты

В уходящем году:

Кроме того, пару недель назад завел наконец «академический» твиттер. В той части академии, которую я наблюдаю (т.е. нейронаука, транскриптомика, машинное обучение), твиттер стал в последние годы прямо очень популярен. Почти у всех завлабов есть твитер, люди твитят свои статьи, ретвитят понравившиеся, обсуждают что-то. Появился даже термин tweeprint (твипринт?): это когда вешаешь препринт на архив или биорхив и постишь тред штук на десять сцепленных твитов, в которых кратко пересказывается суть статьи. Формат прямо-таки максимально неудобный для развернутых высказываний, но как-то парадоксально набрал популярность. В основном люди, кроме науки, ничего и не постят (вроде бы у некоторых бывает два отдельных аккаунта: академический и частный).

В общем, вот: https://twitter.com/hippopedoid. Там пока три треда: о том, что такое гиппопедоид (https://twitter.com/hippopedoid/status/1205990456066215936), про The art of using t-SNE in single-cell transcriptomics (https://twitter.com/hippopedoid/status/1206535867831083008) и твипринт-комментарий про UMAP/t-SNE (https://twitter.com/hippopedoid/status/1207999178015727616). Термин «гиппопедоид» придумал я сам, но твиттер так назвать посоветовал kapahel :) С наступающим!
profile

монархи

Из сегодняшней статьи на Медузе, найдите ошибку (детскую):

Сегодня в мире существуют 44 страны, форма правления которых — монархии. Самих монархов при этом — 29. Численное несовпадение связано с тем, что Елизавета II — королева не только Великобритании, но еще 15 стран, входящих в Содружество наций. [...] Как не сложно подсчитать, сорок четыре минус шестнадцать равно двадцать восемь — откуда взялся двадцать девятый монарх?
(Я им написал, и ошибку уже исправили, так что разгадку см. по ссылке.)
profile

Amicus Navalny, sed magis amica veritas

Навальный мне друг, но истина дороже: в последнем видео у него крупная статистическая ошибка.

Объясняю. Вот его запись об итогах забастовки: https://navalny.com/p/5820/, вот видео: https://www.youtube.com/watch?v=BplJQtpfero (уже 2.6 млн просмотров). Cделаю дисклеймер: я поддерживаю деятельность Навального, время от времени перевожу деньги его кампании, считаю забастовку правильным политическим решением и даже согласен с тем, что в определенном смысле она была успешной (аргументы от начала видео до 3:00). Но с 3:00 до 5:00 там изложен абсолютно неверный аргумент.

Аргумент такой. На президентских выборах 2012 года число зарегистрированных избирателей по данным ЦИК составляло 110 млн человек. На выборах 2018 года оно составило уже 109 млн. При этом за это время был присоединен Крым, +1.8 млн избирателей, и выдано гражданство примерно +0.6 млн иммигрантов, итого должен быть прирост в ~2.5 млн. А наблюдается уменьшение на 1 млн, т.е. реальное уменьшение на 3.5 млн. Как это возможно? Дальше цитирую запись из блога: "Аллё, вы куда дели больше трех миллионов взрослых людей? Понятно куда, они занизили число избирателей, чтобы увеличить явку."

Когда я это прочитал, мне сразу показалось, что здесь что-то не так: механизм занижения числа избирателей в таких масштабах я не могу себе представить. Но что именно не так, я сам не догадался. (Если хотите, не читайте дальше и попробуйте догадаться.)

Спросил Киреева и он сходу сказал, что дело может быть в низкой рождаемости в 1990х годах. Давайте проверим. Вот демографическая пирамида населения России. По ней видно, что те, кто за 2012--2018 годы стали 18-летними -- это примерно 650 тысяч в год мальчиков и столько же девочек, т.е. 0.650*2*6 = 7.8 млн новых избирателей. Это естественный прирост. Смертность в России сейчас примерно 1.9 млн в год (предполагаю, что почти все из них старше 18 лет), т.е. за тот же период естественный убыток 1.9*6 = 11.4 млн избирателей. Отнимаем от 7.8 и получаем естественную убыль в 3.5 миллиона избирателей.

Т.е. **в точности** число, полученное Навальным.

У Навального, очевидно, просто ошибка, но ошибка интересная. Он там говорит о приросте населения, и прирост сейчас действительно происходит, но кол-во избирателей при этом уменьшается, т.к. провал рождаемости в 90-х как раз за отчетный период (2012--2018) достиг 18-летнего порога. Красиво. Судя по пирамиде, кол-во избирателей будет продолжать уменьшаться еще лет десять.

Это один из центральных пунктов всего видео и он, как мы видим, построен на заблуждении. Мне кажется, будет правильным, если Навальный эту ошибку признает (ошиблись, ну бывает). Ну, например, напишет об этом в твиттере и добавит апдейт к записи в блоге (желательно бы добавить еще какие-нибудь субтитры с разъяснением на этом участке видео, если это технически возможно). Если это произойдет, это будет круто (обычно политики ошибок не признают), и я обещаю... ну не знаю, например, в течение года жертвовать ФБК 1% зарплаты :-)

(Эта запись не о политике, а о статистике. Все комментарии о политике я буду удалять.)

Update 1: Проверка. На думских выборах 2016-го было 110 млн, т.е. на 1 млн больше, чем сейчас. Прошло полтора года. Убыль в год 1.9 млн, прирост 1.3, получается -0.6 млн в год, умножаем на 1.5, итого 0.9. Отлично сходится.

Update 2: В комментариях указывают, что прирост кол-ва избирателей за счет мигрантов должен был быть выше, чем +0.6 млн; возможно, раза в два выше. В комментариях также указывают, что какая-то чистка списков наверняка имело место. Вполне допускаю, что плюс 0.5 млн там компенсируют минус 0.5 млн тут. Но все это величины следующего порядка малости! Самое важное тут, что исключительно за счет демографии с 2012 по 2018 кол-во избирателей **должно** было уменьшиться на три миллиона. А команда Навального это прошляпила.
profile

пики 2018

Сергей Шпилькин прислал свежевыкачанные с сайта ЦИК данные. Вот как выглядят в этом году пики. (Историю вопроса см. в https://projecteuclid.org/euclid.aoas/1458909907)





Update: Вижу, что ссылка на эту запись попала в https://navalny.com/p/5818, поэтому стоит, наверное, дать некоторые дополнительные пояснения. Сверху -- гистограмма явки, с бином 0.1%. Вместо того, чтобы просто считать кол-во участков в каждом бине, я считаю суммарное кол-во избирателей, зарегистрированных на этих участках (иными словами, участки взвешены по размеру). Снизу -- гистограмма результата Путина, построенная таким же образом. Гребенка пиков на целых значениях, особенно заметная в районе 80--100% явки, -- это свидетельство фальсификаций, при которых явка и/или результат подгоняются под некий выдуманный процент. Пики значительно заметнее на гистограмме явки, что, наверное, может означать, что рисованию явки в среднем придавали большее значение. Отмечу, что пики происходят из нескольких конкретных регионов, см. вот эту картинку (полюбуйтесь, например, на Дагестан, Татарстан или Краснодарский край).

Как аналогичные графики выглядели в прошлом, можно посмотреть в нашей статье на эту тему, ссылка выше.

Эти графики *НЕ* предназначены для того, чтобы оценивать "несфальсифицированные" результаты. Аккуратно такую оценку можно попытаться сделать, только если внимательно разбираться с каждым регионом отдельно. Но крайне приблизительно можно сказать, что "настоящие" явка и результат Путина находятся в районе максимума (моды) этих гистограмм, т.е. где-то 62% явка и 74% результат. Официальные числа составляют 67.5% и 76.7% соответственно. Озвученная штабом Навального оценка "настоящей" явки в 55% мне представляется сильно заниженной; надеюсь, они разберутся, почему она занижена и как-то это скорректируют (у них, очевидно, сильно смещенная выборка, и они это наверняка и так учитывают, но надо, я думаю, учитывать аккуратнее). Update 2: Цифра в 55% прояснилась: она не включала надомное (и досрочное) голосование, а это, согласно данным ЦИК, почти 5 миллионов человек, т.е. еще почти 5%. Вместе получается ~60%, что в первом приближении соответствует тому, что я вижу в данных.

Дисклеймер: слово "настоящие" я ставлю в кавычки, т.к. на мой взгляд, эти выборы имеют мало отношения к свободному волеизъявлению, вне зависимости от объемов прямых фальсификаций.

Update 3: Вижу целый ряд оценок вбросов в 10 млн, что соответствовало бы реальной явке в 58%. Мне это кажется переоценкой в полтора-два раза.
profile

порядок рождения

Скотт Александр, автор широко известного в узких кругах гиковского блога про психологию-политику-философию, провел подробный опрос читателей, на который ответили семь тысяч человек, и обнаружил очень сильный эффект порядка рождения: напр., если взять всех читателей, у которых есть ровно 1 брат или сестра, то среди них у 71% этот брат или сестра младшая. Вдумайтесь: не у половины из них, а почти у трех четвертей!! Вот запись Скотта: http://slatestarcodex.com/2018/01/08/fight-me-psychologists-birth-order-effects-exist-and-are-very-strong/. Я поверить в такой сильный эффект не мог, решил, что тут какая-то ошибка, скачал данные и проверил сам:



На левой панели кол-во старших и младших читателей в семьях из двух детей, потом кол-во старших, средних и младших в семьях из трех, и т.д. Но может быть, тут какой-то странный эффект возраста (напр., большинству читателей 20 лет и их младшие братья/сестры еще не доросли)? Нет, вот как выглядит процент по возрастам (и заодно по полам):



Я постулировал простенькую модель, в которой шансы быть читателем Скотта экспоненциально падают с номером рождения, и зафитил ее с помощью maximum likelihood (используя биномиальные likelihoods) к данным по семьям всех размеров. Вот что получилось:



У второго ребенка шансы примерно 0.4, асимптота получается примерно 0.3. Т.е. вероятность, что старший ребенок окажется читателем Скотта превышает в ДВА С ПОЛОВИНОЙ раза эту вероятность для остальных детей. Как такое вообще может быть?

Если посмотреть литературу, то, оказывается, эффект birth order на IQ довольно надежно установлен: у старших детей IQ в среднем выше. Но этот эффект ничтожен: по разным оценкам, разницы между первым и вторым ребенком от d=0.1 до d=0.2, т.е. в среднем разница в 2-3 пункта IQ при стандарнтном отклонении в 15 пунктов. (Согласно последней статье в списке, эффект обусловлен не порядком рождения как таковым, а кол-вом старших братьев/сестер не умерших в младенчестве, т.е. если старший ребенок быстро умер, то повышенный IQ в среднем будет у второго, и т.д.; см. картинку.)

http://science.sciencemag.org/content/182/4117/1096
http://www.sciencedirect.com/science/article/pii/S0160289607000062
http://science.sciencemag.org/content/316/5832/1717



Предположим, что эффект составляет d=0.2. Предположим также, что читателями Скотта становятся люди с IQ>130, т.е. с z>2 (оценка кажется разумной). Тогда шансы второго ребенка должны составлять примерно 0.6 от шансов первого -- довольно существенный эффект (важно понимать, что очень небольшая разница в среднем может привести к большой разнице в хвосте распределения), но все-таки далеко не 0.4. Даже при отсеве в z>3, что уже малоправдоподобно, получается всего 0.53. Чтобы получить 0.4, никакого отсева не хватит, и нужно предположить как минимум эффект в d=0.5, а это гораздо выше, чем показывают имеющиеся данные.

Удивительно.
profile

Explain PCA to your grandmother

Мой ответ на этот вопрос https://stats.stackexchange.com/questions/2691 про PCA сегодня набрал 500 upvotes и является самым популярным ответом на CrossValidated с большим отрывом (у следующего за ним и 400 пока нет, см. тут). Пустячок, а приятно.

Я в последнее время там редко отвечаю, но за 2015-2016 написал довольно много. Вот список ответов, отсортированный по их популярности: https://stats.stackexchange.com/users/28666/amoeba?tab=answers&sort=votes -- м.б. кого-то заинтересует.
profile

смирнов про ящериц

Интересное интервью Смирнова Гельфанду: http://trv-science.ru/2017/01/17/stanislav-smirnov-mathwalks/. Среди прочего, Смирнов говорит: "Последняя статья, которую я написал с коллегами, как раз по биологии. Мы изучаем раскраску конкретного семейства ящериц и показываем, что уравнения реакции-диффузии Тьюринга, связывающие концентрации хроматофоров, при переменных коэффициентах..." (тут Гельфанд его перебивает). Попытался найти эту статью и не могу; в архиве нет, в google scholar нет, на женевском сайте Смирнова нет, на сайте лаборатории Чебышева тоже нет. Может быть, статья еще не написана? Судя по разговору, непохоже: Гельфанд там хмыкает, мол, это простая математика и простая биология, а Смирнов ему на это -- ты не торопись, лучше почитай. Никто не знает, о чем речь?

Еще Смирнов рассказывает про (в ML хорошо известные) recommender systems для нетфликсовского конкурса на базе SVD with missing data и говорит, что это "похоже на биологические вещи". Это спорно, и Гельфанд сразу начинает спорить; но может быть, и правда похоже. Я вот как раз с нового года настраиваю что-то подобное для single cell RNA sequencing: технология фантастическая, но глубина секвенирования (пока?) не очень и существенный процент генов не детектируется, т.е. их уровень экспрессии измерен как нулевой, хотя на самом деле это missing value.
profile

зияние

В апреле 2013 года, т.е. почти четыре года назад, avva написал запись о т.н. "паузе" (hiatus) в росте среднепланетной температуры: http://avva.livejournal.com/2592843.html. Скептики тогда любили утверждать, что где-то с 2000 года температура не растет, т.е. потепление давно остановилось, а климатологи отвечали, что этот вывод ошибочен. Я там ввязался в адский спор c bbb на стопятьсот комментов, который Авву так впечатлил, что он через несколько дней написал отдельную запись о нашем с bbb диалоге: http://avva.livejournal.com/2597087.html. Bbb был на стороне скептиков. По ходу дела к разговору подключались еще разные люди, в т.ч. сверхрассудительный i-eron, который в итоге заключил, что следует "подождать ещё 2-3-5 лет", и ситуация прояснится (в ту или другую сторону). Bbb в какой-то момент тоже подтвердил, что "надо подождать еще примерно лет пять".

Ну что, почти четыре года подождали, можно и посмотреть, что там с температурой.

***

Честно говоря, я бы не стал писать эту запись, если бы не одно обстоятельство, которое мне кажется очень смешным.

Разговор с bbb начался вот с этого его короткого комментария: http://avva.livejournal.com/2592843.html?thread=94264395#t94264395, в котором он запостил картинку из википедии с gistemp температурой (первая картинка в статье Global warming) и написал, что за последние 100 лет видит там "два отчетливых периода потепления - примерно 1915-1940 годы и 1975-1995 годы", добавив в следующем комментарии, что он "вполне отчетливо ви[дит] двадцатилетний период потепления 1975-1995 и последующий почти-двадцатилетний продолжающийся период, во время которого темпы потепления резко снизились".

Картинку, которую он запостил, усердные википедисты каждый год обновляют, -- не изменяя при этом ее url, -- и таким образом график в том старом комментарии bbb чудесным образом меняется сам собой, прирастая новыми данными. Вот как он выглядит сейчас:



Меня это очень веселит, потому что вряд ли беспристрастный человек (т.е., например, тот, кто не знает, что речь идет о температуре и вообще не в курсе этих дебатов) теперь сможет охарактеризовать эту картинку, как "отчетливое" потепление 1975-1995 и отсутствие (или даже просто резкое замедление) потепления после 1995; таким образом тот исходный комментарий, да и весь дальнейший диалог, должен теперь представляться абсурдом.

***

Если вы думаете, что скептики-2013 теперь видят, что погорячились, то это большая наивность. Тот же самый bbb буквально несколько дней со ссылками в руках утверждал, что ничего подобного (тут, см также тут в разговоре у leblon); сразу по двум причинам.

Во-первых, потому что никаких выводов якобы нельзя делать всего по нескольким годам новых данных (и зачем тогда, спрашивается, было предлагать подождать несколько лет?); т.е. "опять эта проклятая неопределенность!"

Во-вторых, потому что резкий скачок в последние три года это, мол, просто флуктуация, которая сейчас закончится и все вернется к пост-1995 паузе, об очевидности которой все время говорили большевики. И действительно, флуктуация имела место: в районе зимы 2015/2016 был резкий всплеск, это называется El Niño. Он хорошо виден на последнем графике вот здесь https://data.giss.nasa.gov/gistemp/graphs, где усреднение не по годам, а по сезонам (т.е. по три месяца):



Всплеск, как легко заметить, уже давно закончился, так что можно его мысленно просто вырезать. И даже пересчитать, как изменятся среднегодовые температуры, если их считать без всплеска: в 2016 будет +0.87, в 2015 получится +0.80, в 2014 останется +0.74. То есть на верхней картинке три последние точки останутся тремя самыми верхними точками (!), каждая выше предыдущей, но 2015 и 2016 съедут немного вниз, так что 2016 будет примерно там, где сейчас 2015. Конечно, если уж вырезать El Niño 2015/2016, то нужно вырезать и очень сильный El Niño 1997/1998, про который даже отдельная статья в википедии есть (вот). В итоге останется монотонное возрастание с ~1975, без всяких следов изменения тренда.

***

Свою запись в 2013 году avva написал о статье некоего David Rose в некоей Daily Mail (вот она), где утверждалось, что с 1997 потепления нет. Статья демонстрирует график, который можно сразу включать в учебники по cherry picking (об этом см. уже упомянутые стопятьсот комментариев). Ну ладно. Прошло четыре года, температуры выросли, думаете David Rose признал ошибку или хотя бы затих?

Хахаха. Два месяца назад David Rose написал еще одну статью в Daily Mail (вот она), где продолжает настаивать на том, что с 1997 потепления нет.

Но как, Холмс? А очень просто. Новая статья не показывает обновленный график из старой статьи, где демонстировался участок из серии hadcrut (вот этот). Она не упоминает этого обстоятельства и не обращает на него внимание читателя. Она просто показывает *другой* график. Потому что если взять старый график и его продолжить, то будет виден, страшно даже помыслить, некоторый рост температуры (вот). Слава Богу, серий много, есть английская, есть насовская, есть со спутников, нижняя тропосфера, верхняя тропосфера, над сушей, над океаном. Если их перебрать, то найдется и такая, которая действительно с 1997 и аж по 2016 выглядит плоско (вот она): насовские спутники, нижняя тропосфера, только над сушей. Это уже не просто cherry picking, это рука мастера, шедевр черри пикинга, черри пикинг из палаты мер и весов. Учитесь.

Breitbart тогда эту агитку перепостил, кто-то там ретвитнул, а Доблестные Правые жж-исты потом на 150+ комментариев объясняли, что все так и есть, а Лживая Левая Пресса Всё Скрывает (вот).

***

I-eron, что скажете?
profile

belem a noite

Жизнь не стоит на месте, и вот уже мы собрали чемоданы, развинтили детские кроватки, и -- увы, увы -- уехали из Лиссабона в Швабию. Итоговый пункт назначения -- славный город Тюбинген, но мы переезжаем поэтапно, и я там буду только с нового года, а семейство ближе к лету. Пока что привыкаем к сельской идиллии, вместо апельсинов -- яблоки, вместо чаек -- какие-то ястребы, вместо vinho verde -- Federweisser. Дедушка ("Это не дедушка! Это Opa!") катает детей на лошадях и водит смотреть, как доят коров.

В один из последних перед отъездом вечеров, когда мебель уже продали, коробки уже отправили, и дети заснули в спальниках на полу, я решил пройтись по району с фотоаппаратом. Взял широкоугольник, штатив, и вышел под теплый октябрьский моросящий лиссабонский дождик. Кто бывал в Лиссабоне, наверняка узнает знакомые места: мы жили в самом центре Белема, в двух шагах от Жеронимуша и паштейш де Белем.

Collapse )
profile

Александр Сень, 1983--2016

Третьего дня умер мой одноклассник и друг, Саня Сень. В феврале у него ни с того ни с сего случился эпилептический припадок; в больнице сделали томографию и диагностировали глиобластому. Через семь месяцев его не стало. Тридцать три года, здоровый, сильный, спортивный; раз и умер. В голове не укладывается.

Вчера полночи разбирал старые фотографии -- нашел в основном лыжные и байдарочные. Помню, как впервые встал на горные лыжи, курсе, наверное, на первом: поехал то ли в Токсово, то ли в Кавголово с Саней и Д., они меня втащили на бугеле наверх и отправили вниз плугом. Сам Саня катался превосходно, его еще в детстве научили родители. Потом мы несколько лет подряд ездили на весенние школьные каникулы в Кировск. Смотрю на снимки из нашей последней поездки в 2006: вот он прыгает с бортика кулуара, вот мы стоим на верху креселки; вот он прямо на склоне записывает на листок в клеточку рубаи Хаяма про пятницу (зачем? не могу вспомнить). А вот мы все на беговых лыжах на даче у К., идет снег, кто-то достал фляжку коньяка.

В постгимназических байдарочных походах Саня был бессменным адмиралом. Мы его между собой так и называли -- Адмирал. В последний раз мы с ним ходили на Писту в 2005. Фотографии смешные: Саня читает описание маршрута; Саня в каске и болотниках стоит на берегу рядом с кильнувшейся ярко-желтой байдаркой; Саня сушит паспорта всей группы, которые хранились у него в адмиральской микрогерме, не оправдавшей в итоге наших ожиданий; Саня клеит байдарку; Саня прошибает огромную бочку; Саня с С. киляются в пороге -- названия мне не вспомнить, с виду троечка, но хорошо помню, как я тогда плыл через суводь помогать их вытаскивать. Фотография адмиральской папки с цитатой из Платона: "Никто никогда не должен оставаться без начальника".

Саня, веселый, открытый, выдумщик, всегда был душой компании -- и только сейчас, читая что пишут ему вконтакте, я понимаю, что он был душой не одной, а нескольких самых разных компаний. В последние годы мы мало общались и виделись всего раз в год, когда я приезжал в Питер, но всегда собирались на кухне у А., болтали до ночи, и мне всегда было грустно, что мы, увы, так редко встречаемся и вот уже лет десять как не ходим в байдарочные походы.

Спасибо за все, Саня. Вечная память и царствие небесное.



Collapse )