Наткнулся в интернетах. Очень любопытно най мой взгляд.
Парадокс Симпсона — статистический парадокс, согласно которому фактор, больше проявляющийся при любых фоновых условиях, чем противоположный ему, проигрывает менее эффективному, но относительно часто встречающемуся фактору. Эффект этого парадокса на удивление часто проявляется в области социологических наук и медицинской статистике; это происходит, когда весовая переменная не учитывается для одной группы, но должна использоваться при расчётах общих оценок.
Вот стыренный хороший пример.
Когда новый губернатор Висконсина наехал на профсоюзы учителей, они кричали, что он подрывает образование. И объясняли, что в Техасе, где такого профсоюза нету - средний уровень учеников ниже, чем в Висконсине.
Утверждается, однако, что картина меняется, когда ученики группируются по демографии. То есть, черные школьники Техаса более продвинуты, чем черные школьники Висконсина. То же самое про Латино и белых.
Суть тут в том, что успеваемость в среднем среди черных ниже, чем среди латино, а среди латино, в свою очередь, успеваемость в среднем ниже, чем среди белых. Не будем вдаваться в подробности почему это так (это не обязательно генетические различия, они могут быть чисто культурными), но это статистический факт. А в Висконсине, видите ли, белых значительно больше, чем цветных. А в Техасе, расположенном рядом с Мексикой, цветных дохрена. Посему суммарная статистика показала, что в Висконсине уровень учеников выше, чем в Техасе и это то и предьявили губернатору. А при разбиении на расы оказалось, что для всех групп в Техасе уровень учеников выше, чем для таких же групп в Висконсине. Что как раз является истинным положением дел, искажаемым парадоксом Симпсона при суммировании.
С картинкой из вики более понятно.
Simpson's paradox for continuous data: a positive trend appears for two separate groups (blue and red), a negative trend (black, dashed) appears when the data are combined.
Как-то так.