Статистическая значимость и другие ловушки A/B тестов

На прошлой неделе я подкинул монетку сто раз, 49 раз выпала решка. Потом я одел красную футболку и подкинул ту же самую монетку ещё 100 раз. Теперь 51 раз выпала решка. Исходя из этого, я делаю вывод, что надевая красную футболку, вы увеличиваете количество выпадений решки на 4,1%.

Нелепый эксперимент (ну да, я действительно сделал это) с нелепым выводом, но иногда я вижу такой же не заслуживающий доверия анализ в A/B тестировании.

Это логично и похвально, что дизайнеры должны искать решения, помогающие увеличить конверсию принести больше денег. Но данные должны быть тщательно обработаны, и математическая точность не является основным моментом дизайнерского репертуар.

Вот пример с ABTests.com, стоящий проект, так что я чувствую себя неловко, выбирая его.

Здесь две версии, которые немного отличаются:

  • Версия А: Кнопка загрузки (Upload) и конвертации (Convert) выделена полужирным, у кнопки конвертации есть стрелка вправо
  • Версия B: все кнопки одинаковой толщины, у кнопки конвертации нет стрелки вправо

Даже минимальные изменения могут вызвать большие сюрпризы, я бы не ожидал ничего от этих изменений. Учитывая, что я ничего не знаю о пользователях или продукте, я бы даже предположил, что версия B могла бы сработать хуже, так как там меньше призыва к действию.

Дизайнер заявляет, что версия B показывает улучшение конверсии на 30.4% в A/B тесте. Вот почему это не совсем точно.

Роль случая

Любой A/B тест — это испытание, потому что мы наблюдаем результаты, полученные в результате попытки. Я не знаю точно, что есть 50% шанс выпадения орла или решки, я могу только провести испытание и наблюдать результат. Также мы не можем точно знать, что дизайн увеличит конверсию, мы можем только провести эксперимент и наблюдать результат. Если эмпирические данные достаточно сильны, мы заключаем, что новый дизайн лучше. Если нет, то нет.

Что бы быть верными, испытания должны быть достаточно большими. Подбрасывая мою монетку 100 или 1000 раз, я уменьшаю влияние шанса, но всё равно я буду получать немного разные результаты при каждом испытании. Аналогично, новый дизайн может получить 27,5% конверсии в понедельник, 31,3% во вторник и 26,0% в среду. Это случайное изменение всегда должно первой учитываться при любых наблюдаемых результатах.

Нулевая гипотеза

Статистики используют так называемую нулевую гипотезу, чтобы рассчитать эту вероятность. Нулевая гипотеза для A/Bтеста выше может выглядеть так:
Разница в конверсии между Версией A и Версией B вызвана случайным изменением.

Затем это дело испытания опровергнуть нулевую гипотезу. Если получится, то мы принимаем альтернативное объяснение:
Разница в конверсии между Версией A и Версией B вызвана различием между двумя дизайнами.

Чтобы определить, можем ли мы отказаться от нулевой гипотезы, мы используем определённые математические уравнение, чтобы вычислить вероятность того, что наблюдаемые изменения были вызваны случайностью. Эти уравнения за пределами темы этого поста, но включают: Student’s t test, χ-squared и ANOVA (ссылки на Wikipedia для интересующихся). А вот сайт, который всё вычислить за вас, преобразуя стандартные результаты A/B теста в понятные «Да» или «Нет».

Статистическая значимость

Если арифметика показывает, что вероятность случайного результата очень мала (обычно менее 5%), то мы отвергаем нулевую гипотезу. В действительности мы говорим: «Очень маловероятно, что результат получился случайным. Скорее всего, он получился в результате наших изменений» - в этом случае мы говорим, что результаты статически значимы. Заметьте, что мы всё ещё не можем гарантировать, что это правильная интерпретация, значение получено при отсутствии сильных сомнений.

Выполнение расчётов для данных, приведённых выше, показывает, что результат не статически значим: результаты не являются достаточными, чтобы опровергнуть нулевую гипотезу, что разница в конверсии просто случайность. Основная проблема – малая выборка (128 и 108 пользователей соответственно), так что я посоветую дизайнеру Джохану (Johann) повторить тест с большим количеством пользователей. Если предположить, что наблюдаемые конверсии не изменялись (в общем случае), выборка в 200 пользователей на версию должна быть вполне достаточна. Он может или опровергнуть нулевую гипотезу или результаты так и останутся безрезультатными, в таком случае не будет понятно, есть ли какая-то разница между версиями. В защиту Джохана, он недавно написал, что он берёт во внимание значение, и я с нетерпением жду более убедительные данные этого интригующего теста.

Путаница с процентами

Значимость – это не единственная скользкая проблема, встречающаяся в A/B тестах. Для новичков, описание улучшений конверсии всегда сопряжено с трудностями. Поскольку конверсия обычно измеряется в процентах (в нашем примере, 31,3% и 40,7%), то есть два способа описать улучшения. Мы можем сказать, что конверсия улучшилась на:

  • 9,4% — разница между двумя значениями
  • 30,4% — на сколько 40,7% больше чем 31,3%

Любое описание улучшений должно быть рассмотрено со всех сторон: какой вариант должен быть использован? Опасность в том, что очень легко выбрать неправильный способ описания в неправильном контексте.

Спираль смерти A/B

A/B тесты также обладают общей количественной проблемой, они говорят нам «что», на не «почему». Я писал об этом ранее в статье «What if the design gods forsake us». Желательно сохранить численные тесты с качественной оценкой (например, партизанский (guerrilla) тест юзабилити), чтобы мы могли принять обоснованное решение, если по итогам полученных данных получается, что мы должны переделать дизайн.

Даже с сохранёнными данными иногда A/B тесты просто неподходящий инструмент. Они могут дать отличное понимание ситуации в некоторых случаях, но при использовании в неправильных местах, они могут стать тупиком или, что ещё хуже, орудием разрушения. Логический позитивизм и дизайн не смешиваются, не всё что мы делаем можно эмпирически проверить, некоторые полагаются на A/B тестирование вместо обычного дизайнерского осмысления. Я называю это «спираль смерти A/B», и это выглядит примерно так:

Дизайнер: Вот новый дизайн экрана. Вы можете увидеть, что там появилась новая навигация, изменена цветовая палитра и я переместил основное управление во область со вкладками.
Заказчик: Ух ты, это большие и рисковые изменения для такого экрана. Вот что я тебе скажу: давай их протестируем раздельно, чтобы посмотреть, что из этого сработает, а что нет.

Как говорит пословица: «Ты не сможешь перепрыгнуть 20-футовую пропасть в два десятифутовых прыжка». Выбор только тех элементов дизайна, которые «одобрил» A/B тест, может привести к фрагментированному и бессвязному дизайну. Возможно, это принесёт немного больше денег в краткосрочной перспективе, но это путь к плохому UX и повредит в долгосрочной перспективе.

Будьте верны данным

Учитывая потенциальную опасность, я обеспокоен тем, с какой наивностью некоторые дизайнеры подходят к количественному тестированию. Ми статистики вознаграждает честный поиск истины, не дилетантство, и я рекомендую любому дизайнеру, собирающемуся использовать науку статистики, познать основы теории или, в конце концов, найти партнёра с подходящими знаниями.

Дефектный A/B тест, будь это статистически незначимый, неправильно проведённый или неправильно описанный, не более чем неподтверждённая информация. Это такое же преступление, как покрасить весь сайт в красный по просьбе всего одного пользователя. Тем не менее, нетерпеливый дизайнер, видя пример, который я привёл выше, может быстро прийти к неправильному выводу: «Я должен удалить стрелочку с кнопки продолжить, это на 30.4% лучше.» Возможно, этот дизайнер заслуживает того, что получает. Возможно, он всё это делает лишь для галочки после прочтения «12 способов сделать юзабилити твоего сайта лучше». Так что они не понимает ни математику, ни контекст этого эксперимента (сроки, база пользователей, сопутствующие задачи), он просто схватил палку не с того конца.
Тем не менее, он делает это.

Не будьте тем дизайнером.

Оригинал: Statistical significance & other A/B test pitfalls

No related posts.

  • Pingback: pyjama

  • Pingback: love spells

  • Pingback: http://www.pyjama-shop.nl

  • Pingback: Vegas Indoor Skydiving

  • Pingback: scott tucker mortgage marketing genius

  • Pingback: comprar ouro

  • Pingback: Michigan Internet Payday Loans

  • Pingback: compare auto insurance rates texas

  • Pingback: Go Here

  • Pingback: Goozle Zone

  • Pingback: singapore company incorporation

  • Pingback: payday loans online

  • Pingback: roofing Austin

  • Pingback: roof company

  • Pingback: JUAL JAM TANGAN MURAH

  • Pingback: que es un blog

  • Pingback: Montana Tax Lawyers

  • Pingback: Austin roofing

  • Pingback: how to lose belly fat fast

  • Pingback: Indianapolis roofing

  • Pingback: http://fastcashadvancepaydayloans.com

  • Pingback: http://radiatorcenter.com.ua

  • Pingback: post apocalyptic short

  • Pingback: roofing Austin

  • Pingback: Goozle Zones

  • Pingback: replica watches

  • Pingback: payday loan

  • Pingback: cigarette electronique

  • Pingback: cash advance

  • Pingback: googlezerlunited

  • Pingback: How to pull a tooth

  • Pingback: Movie Clips

  • Pingback: stickers

  • Pingback: hearing loss

  • Pingback: cystitis

  • Pingback: bmw specialists barrow

  • Pingback: flooring bromley

  • Pingback: cash loan stores

  • Pingback: cheap loans uk

  • Pingback: paydayloansplanet.com

  • Pingback: Read More

  • Pingback: zig zaga

  • Pingback: injury attorney

  • Pingback: new york asian escort

  • Pingback: ZigZag

  • Pingback: Jeff Johnson

  • Pingback: group team building events

  • Pingback: Promotional Products

  • Pingback: ZCode System

  • Pingback: new york asian escorts

  • Pingback: model train

  • Pingback: Secured homeowner loans

  • Pingback: Contemporary Lighting

  • Pingback: Jose Antonio Gallego BBVA

  • Pingback: jfd98ayhcim

  • Pingback: la halle de martigues

  • Pingback: web design barrow

  • Pingback: Hubschrauber

  • Pingback: jfd98ayhcim

  • Pingback: jfd98ayhcim

  • Pingback: lida zayiflama

  • Pingback: lida

  • Pingback: lida

  • Pingback: lida

  • Pingback: fsgb80v7cbwe

  • Pingback: jfd98ayhcimg

  • Pingback: training management systems

  • Pingback: Elektrische Zahnbürste

  • Pingback: small websites hosting

  • Pingback: Израиль отдых на море

  • Pingback: мертвое море

  • Pingback: Мертвое море туры

  • Pingback: Туры на Красное море Израиль

  • Pingback: [2:45:46 AM] Alex: WordPress business themes

  • Pingback: godaddy bluehost comparison

  • Pingback: Best Buttons Web Elements

  • Pingback: Funny Animals Characters Vectors

  • Pingback: Opencart CSS templates

  • Pingback: raspberry ketone reviews