Відмінності в соціологічних даних

Перед кожними виборами претензії до даних соціологів наростали. А зараз уже й виборів наче немає, а пристрасті розпалюються. Особливо нам дісталося останнім часом через партію Рабиновича, рейтинг якої, як багато хто думає, нижчий, ніж у наших опитуваннях.

Насамперед, багато відмінностей є ілюзорними і пов'язані вони з нерозумінням соціологічних рейтингів. Поки в мене не було сторінки у Фейсбуку, я не усвідомлював, наскільки часто люди порівнюють непорівнянне, зіставляють відсотки, розраховані для різних основ, оскільки "і там і там рейтинги". Пам'ятайте анекдот?

" - Вода кипить при температурі 90 градусів.

- Товаришу прапорщик, а в нас тут написано, що вода кипить при температурі 100 градусів.

- Зараз перевірю… Так, справді, вода кипить при температурі 100 градусів, а 90 градусів - це прямий кут!"

Значною мірою винні самі соціологи, бо не можуть домовитися про стандарти оприлюднення рейтингів (тобто про деякі домовилися, але не про всі), різні компанії продовжують оприлюднювати різні показники. Але й споживачі інформації мають стежити за тим, щоб не плутати температуру кипіння з прямим кутом.

Які рейтинги оприлюднюють соціологи

Соціологи ставлять, наприклад, таке запитання (беру з анкети КМІС): "Якби найближчої неділі проходили вибори до Верховної Ради України, чи взяли б ви участь у голосуванні? Якщо "так", то яким був би ваш вибір, якби у виборах брали участь такі-то партії? (список партій вручається респондентові)".

За результатами опитування можуть оприлюднюватися щонайменше три види рейтингів: 1) відсотки відносно всіх опитаних; 2) відсотки відносно тих, хто прийде на вибори; 3) відсотки відносно тих, хто прийде на вибори й визначився.

РЕЙТИНГ 1 - відсоток тих, хто вибрав ту чи іншу партію, відносно всіх опитаних. Це перше, що завжди оприлюднюють (слава Богу, хоч про це домовилися). Власне, це вихідна інформація, безпосередньо результати опитування - тобто те, що ми отримали від людей. Це сірячинна правда, або, як казав Остап Бендер, вона ж плоскінна, домоткана й кондова. Це, можна сказати, технічні дані, вони потрібні для порівняння даних різних досліджень, щоб можна було перерахувати дані двох компаній і звести до єдиного знаменника. Словом, вони з усіх поглядів хороші, але вони не показують, які партії пройдуть до парламенту. Тлумачити ці показники як відсотки, які партії отримають на виборах, некоректно, бо серед них великий відсоток тих, хто не прийде, і тих, хто не визначився. Наприклад, у даних КМІС таких близько 50% (див. табл. 1, перша колонка з відсотками ). А на виборах таких немає, там сума голосів дорівнює 100%, а не 50%, тобто ці відсотки в середньому вдвічі менші, ніж на виборах, і якщо на них орієнтуватися, то до парламенту проходять лише дві партії - Тимошенко і Порошенка. У табл. 1 наведено цей рейтинг з нашого прес-релізу.

Зауважу, до речі, що партія Рабиновича, не проти ночі буде сказано, і в даних КМІС, і в даних Центру Разумкова отримує 3,5%, відмінність - 0. Але перш ніж аналізувати інші відмінності, повернімося до розрахунків рейтингів. Очевидно, що у виборах беруть участь далеко не всі: наприклад, явка на парламентських виборах 2014 р. становила лише 52%. Якщо з теоретичного погляду нас може цікавити думка всіх, то з практичного - лише тих, хто голосуватиме.

РЕЙТИНГ 2 - відсоток відносно тих, хто сказав, що голосуватиме. Це стандарт подання даних Центру Разумкова або Фонду "Демократичні ініціативи". Рейтинг 2 (це умовна назва) вже ближчий до показників, які отримали б партії на виборах найближчої неділі, але в отриманих даних може бути ще 20-30% тих, хто не визначився (у цьому випадку в КМІС 22%), тобто сума відсотків голосів за всі партії становить 70-85%, а не 100 (у цьому випадку 78%). Але на виборах рейтинги партій, щодо яких розраховують прохідний бал, у сумі становлять 100%. Тобто в середньому при такому способі розрахунків усі відсотки можуть бути заниженими на 15-30%, і якщо партія на виборах отримала б, скажімо, 6%, то при такому опитуванні й розрахунках рейтингу 2, він вийде меншим ніж 5%, і ми зробимо помилковий висновок, що вона не проходить до парламенту. Це може бути критично для деяких партій. Центр Разумкова у своєму прес-релізі розраховує саме рейтинг 2, ми перерахували в такий самий спосіб і дані КМІС, хоча КМІС у своїх прес-релізах не використовує цього рейтингу (див. колонку 2 в табл. 1.).

РЕЙТИНГ 3 - відсоток відносно тих, хто сказав, що прийде і визначився з вибором. Це стандарт КМІС, який використовується вже багато років. Перевага - сума відсотків голосів, отриманих партіями, дорівнює 100, як і на виборах. Справді, ми запитуємо не про майбутні регулярні або дострокові вибори, а про думки респондентів зараз, найближчої неділі, це ніби імітація виборів (інтерв'юер прийшов, і якщо ви не збираєтеся голосувати або не визначилися - ваш голос не враховується, як і на реальних виборах). Інтерв'юер навіть приносив із собою урну для голосування, і респондент, крім відповіді на анкету, - голосував (це є в прес-релізі, але ми цих рейтингів тут не розглядаємо, а розглядаємо тільки інформацію, порівнянну з інформацією Центру Разумкова). Цей рейтинг найближчий до результатів виборів, якби вибори проходили в середині листопада.

Зауважимо, що якщо, скажімо, партія "Громадянська позиція" Гриценка при розрахунках Рейтингу 2 не проходить до парламенту, то при розрахунках рейтингу 3 проходить, і це відповідає реальності на цей момент (зрозуміло, що якщо починаються вибори, то результати можуть змінитися і, як мені здається, змінюються в бік тих, у кого більший медіаресурс).

Зауважу також таке (дуже важливе!). Всі розрахунки статистичної похибки вибірки соціологи дають лише відносно Рейтингу 1, і тільки для цього типу рейтингу можна розмірковувати, чи є різниця між двома партіями або кандидатами. Рейтинги 2 і 3 дають краще уявлення про можливі результати виборів, але мають більшу стохастичну похибку, оскільки розраховані щодо меншої вибірки. Наприклад, вибірка КМІС 2000 респондентів, а збираються прийти і визначилися лише 44%, тоді основа для розрахунків рейтингу - лише 880 респондентів, тому максимальна помилка для цих рейтингів буде не 3,3, а 5%.

Ну і, зрозуміло, всі рейтинги - повторюся - це орієнтовна оцінка на момент опитування, а не прогноз результатів майбутніх виборів.

Отже, не можна зіставляти рейтинги, розраховані за різними основами! Це безглуздо. На жаль, різні компанії дають різні рейтинги: КМІС - рейтинг 1 і 3, ЦР - рейтинг 1 і 2. Ну не змогли ми домовитися, не змогли! У кожного свої аргументи. Але принаймні домовилися завжди давати рейтинг 1, тому саме для нього коректним є зіставлення і коректними є помилки, що наводяться. Тому дані різних компаній можна порівнювати за рейтингом 1. І, якщо хочете, можна перерахувати інші рейтинги (але тоді перерахувати й помилки). У кожному разі порівнювати треба одні й ті самі показники, рейтинги одного й того самого типу.

Наскільки відрізняються результати КМІС і ЦР

Тепер можемо перейти до відмінностей у рейтингах КМІС і Центру Разумкова. По-перше, з приводу партії Рабиновича, щодо якої мене розпинають іще з вересня, коли за нашим даними (до речі, нашого власного опитування, а не опитування замовника) ми отримали її рейтинг 2% (відносно всіх). А при перерахуванні в рейтинг 3 це означає, що вона має шанси пройти до парламенту. Після цього були оприлюднені дані компанії "Рейтинг", де ця партія мала 3%, і оприлюднені нинішні дані (див. табл. 2, порівнювати можна лише рейтинг 1), де і в КМІС і в ЦР партія отримала 3,5%. У КМІС і в Центру Разумкова немає відмінностей у питанні про проходження партії Рабиновича до парламенту, дані повністю збігаються. Про це саме свідчили наші вересневі дані й дані компанії "Рейтинг". Подобається це комусь чи ні, але якби вибори були в середині листопада, то партія Рабиновича з великою імовірністю опинилася б у парламенті.

Узагалі ж кажучи, для зіставлення результатів необхідно, щоб списки партій у різних опитуваннях збігалися. Сам список партій, поки не почалася передвиборна кампанія і не закінчилася реєстрація, є певною гіпотезою. Соціологи (або їхні замовники) мають припустити, які партії братимуть участь, а які ні. І що більше партій з одного електорального поля, то менший рейтинг кожної з них. Різні набори партій дають різні рейтинги. Іноді політичні сили вставляють в анкету по кілька наборів, включаючи неіснуючі партії, щоб перевірити, що буде, якщо якісь партії об'єднаються в один блок або такий-то політик створить свою партію. І поки не закінчилася реєстрація партій, усі такі набори, всі такі списки партій мають право на існування.

Проблема соціологів полягає в тому, що політичні сили використовують ці дані не тільки для внутрішнього вжитку, для розробки своєї стратегії або тактики, а хочуть використати соціологічні дані для піару. За всіма - і міжнародними, й українськими - законами Замовник, що оплатив опитування, є повним власником інформації, він може вибірково оприлюднювати ту інформацію, яка йому подобається, результати того списку, де його політична сила краще виглядає. Замовникам КМІС більше подобається один список, замовникам ЦР - інший.

За даними КМІС (див. табл. 1) "Батьківщина" отримує 8,4% електоральної підтримки, а за даними Центру Разумкова - трохи більше: 9,1%, тобто щодо партії Тимошенко різниця незначна. А от щодо Блоку Порошенка в КМІС 5,8%, а в ЦР - 9,5%, тобто більше на 3,7 відсоткового пункту, це значима різниця. Чому? У списку КМІС на сім партій більше, і є ще пункт "зіпсую бюлетень", ці партії можуть "відкушувати" щось від рейтингу Блоку Порошенка (особливо УДАР і партія Гройсмана, разом 2%, і якщо їх додати до рейтингу Блоку Порошенка, то відставання від "Батьківщини" буде лише 1,3 відсоткового пункту). Але головна відмінність наших даних - у ЦР на 11% менше тих, хто не визначився, із цих відсотків щось додалося до рейтингу Порошенка. У КМІС запитання про вибір стояли на початку анкети, у ЦР - після запитань про довіру до соціальних інститутів і політиків, що могло "розігріти" респондентів, дати час подумати про довіру до політиків і зменшити число тих, хто не визначився, в результатах ЦР.

Резюме. У даних двох центрів про парламентські вибори немає драматичних відмінностей, смішно говорити, що за даними ЦР перемагає Блок Порошенка, коли він випереджає "Батьківщину" на 0,4% при похибці 2%. Якщо список партій, що брали участь у виборах, буде ближчий до списку КМІС, то "Батьківщина" набере трохи більше, ніж Блок Порошенка, а якщо ближчий до списку ЦР, вони наберуть приблизно порівну. І ті й інші дані правильні, питання в тому, який список виявиться ближчим до реальності, коли відбудуться вибори.

Гірший стан речей із президентським рейтингом, але тут порівнянність списків іще нижча, збігаються лише вісім кандидатів з 14, при строгому професійному підході таке зазвичай не порівнюють (див. табл. 3, наведено, зрозуміло, лише рейтинг 1).

Тут до списку КМІС наш замовник чомусь уже не вніс Гройсмана і Кличка, натомість вони є в списку Центру Разумкова. А в списку Центру Разумкова немає Рабиновича, але є Тягнибок і Ярош (хоча на попередніх виборах Рабинович отримав більше, ніж Тягнибок і Ярош разом узяті). Насамперед хочу зазначити, що Рабинович зовсім не посів третє місце, як писали ЗМІ, відмінності з 3-го по 6-те місце не значимі. Для чого ми всюди пишемо похибку вибірки, чому ніхто не звертає на це уваги?! Рабинович розділив з 3-го по 6-те місце з Гриценком, Ляшком і Бойком.

Максимальні відмінності в наших даних - щодо пунктів "Інша партія" (13%!) і "Не визначилися" (7,8%). На цьому тлі відмінності щодо Тимошенко (2,1%) і Порошенка (3,4%) не виглядають такими вже великими, однак проблема в тому, що вони спрямовані в різні боки. Можливими причинами розбіжностей, крім зазначених вище, можуть бути особливості вибірки. У КМІС Донбас входить до вибірки тільки пропорційно до контрольованої частини Донбасу, а ЦР бере Донбас у тій пропорції, в якій він був до війни (мотивація - "Це єдино достовірні дані" - мені видається хибною, хоча це питання спірне). Зрозуміло, різниця - вдвічі - частки Донбасу в наших двох опитуваннях вносить відмінності в рейтинги.

Однак у кожному разі для президентських виборів головне - хто проходить до другого туру, тут усі дані повністю збігаються: у другий тур виходять Порошенко і Тимошенко. Чомусь спав на думку похмурий анекдот про чукчу, якого велика біла людина найняла провідником: вона приїхала ловити рибу. Сидять вони з вудками біля лунки і раптом оддалік помітили білого ведмедя, що біжить до них. Чукча підхопився й почав надівати лижі. Велика біла людина йому каже:

- Все сарно, невже ти думаєш, що зможеш бігти швидше за ведмедя?

- А мені, однак, і не треба бігти швидше за ведмедя. Мені треба бігти швидше за тебе!

Тож і нам, соціологам, байдуже, хто там у нас біжить третім чи четвертим, нам важливо правильно визначити перші два місця. Ясно, що Порошенко і Тимошенко виходять у другий тур зі значним відривом від решти. І якби в ЦР були дані про результати другого туру, то в другому турі в нас були б повністю порівнянні однакові списки, і можна було б говорити, чи дають соціологи різні результати.

І насамкінець скажу, що ситуацію дуже драматизують. Почасти в цьому винні самі соціологи: не можемо домовитися про стандарти. Почасти це проблеми вибіркового оприлюднення даних замовниками, які дозволені документами, що регламентують соціологічну діяльність (ми не приймаємо від замовників запитань, "що наштовхують", або їх послідовності, для цього є спеціальні стандарти, але нічого не можемо зробити з вибірковим оприлюдненням вигідних даних і замовчуванням невигідних). Це дозволені дії, але вони знижують довіру до нас, позначаються на нашій репутації. Однак багато в чому це й проблема низької соціологічної культури не тільки населення загалом, а й журналістів, політиків, активних користувачів Фейсбуку. Це двоїсте ставлення до соціологів (точніше, до полстерів, що становлять лише невелику частину соціологів): з одного боку, до соціологів ставляться з підозрою і недовірою, з іншого - абсолютизують дані вибіркових опитувань, ігноруючи навіть заявлені соціологами стохастичні похибки (а вони, звичайно, більші за заявлені, бо не враховують дизайн-ефекту і систематичних помилок). Ну й, звичайно, це наявність шахраїв і непрофесійних організацій, що претендують на проведення соціологічних досліджень. Тому будь-яка нова тенденція, виявлена нами, викликає, насамперед, не думку про можливі помилки, а підозри в корупції (а коли ця тенденція стає вже очевидною, то нікому не спадає на думку вибачитися за висловлені підозри).