Статистическая значимость и другие ловушки A/B тестов
На прошлой неделе я подкинул монетку сто раз, 49 раз выпала решка. Потом я одел красную футболку и подкинул ту же самую монетку ещё 100 раз. Теперь 51 раз выпала решка. Исходя из этого, я делаю вывод, что надевая красную футболку, вы увеличиваете количество выпадений решки на 4,1%.
Нелепый эксперимент (ну да, я действительно сделал это) с нелепым выводом, но иногда я вижу такой же не заслуживающий доверия анализ в A/B тестировании.
Это логично и похвально, что дизайнеры должны искать решения, помогающие увеличить конверсию принести больше денег. Но данные должны быть тщательно обработаны, и математическая точность не является основным моментом дизайнерского репертуар.
Вот пример с ABTests.com, стоящий проект, так что я чувствую себя неловко, выбирая его.
Здесь две версии, которые немного отличаются:
- Версия А: Кнопка загрузки (Upload) и конвертации (Convert) выделена полужирным, у кнопки конвертации есть стрелка вправо
- Версия B: все кнопки одинаковой толщины, у кнопки конвертации нет стрелки вправо
Даже минимальные изменения могут вызвать большие сюрпризы, я бы не ожидал ничего от этих изменений. Учитывая, что я ничего не знаю о пользователях или продукте, я бы даже предположил, что версия B могла бы сработать хуже, так как там меньше призыва к действию.
Дизайнер заявляет, что версия B показывает улучшение конверсии на 30.4% в A/B тесте. Вот почему это не совсем точно.
Роль случая
Любой A/B тест — это испытание, потому что мы наблюдаем результаты, полученные в результате попытки. Я не знаю точно, что есть 50% шанс выпадения орла или решки, я могу только провести испытание и наблюдать результат. Также мы не можем точно знать, что дизайн увеличит конверсию, мы можем только провести эксперимент и наблюдать результат. Если эмпирические данные достаточно сильны, мы заключаем, что новый дизайн лучше. Если нет, то нет.
Что бы быть верными, испытания должны быть достаточно большими. Подбрасывая мою монетку 100 или 1000 раз, я уменьшаю влияние шанса, но всё равно я буду получать немного разные результаты при каждом испытании. Аналогично, новый дизайн может получить 27,5% конверсии в понедельник, 31,3% во вторник и 26,0% в среду. Это случайное изменение всегда должно первой учитываться при любых наблюдаемых результатах.
Нулевая гипотеза
Статистики используют так называемую нулевую гипотезу, чтобы рассчитать эту вероятность. Нулевая гипотеза для A/Bтеста выше может выглядеть так:
Разница в конверсии между Версией A и Версией B вызвана случайным изменением.
Затем это дело испытания опровергнуть нулевую гипотезу. Если получится, то мы принимаем альтернативное объяснение:
Разница в конверсии между Версией A и Версией B вызвана различием между двумя дизайнами.
Чтобы определить, можем ли мы отказаться от нулевой гипотезы, мы используем определённые математические уравнение, чтобы вычислить вероятность того, что наблюдаемые изменения были вызваны случайностью. Эти уравнения за пределами темы этого поста, но включают: Student’s t test, χ-squared и ANOVA (ссылки на Wikipedia для интересующихся). А вот сайт, который всё вычислить за вас, преобразуя стандартные результаты A/B теста в понятные «Да» или «Нет».
Статистическая значимость
Если арифметика показывает, что вероятность случайного результата очень мала (обычно менее 5%), то мы отвергаем нулевую гипотезу. В действительности мы говорим: «Очень маловероятно, что результат получился случайным. Скорее всего, он получился в результате наших изменений» - в этом случае мы говорим, что результаты статически значимы. Заметьте, что мы всё ещё не можем гарантировать, что это правильная интерпретация, значение получено при отсутствии сильных сомнений.
Выполнение расчётов для данных, приведённых выше, показывает, что результат не статически значим: результаты не являются достаточными, чтобы опровергнуть нулевую гипотезу, что разница в конверсии просто случайность. Основная проблема – малая выборка (128 и 108 пользователей соответственно), так что я посоветую дизайнеру Джохану (Johann) повторить тест с большим количеством пользователей. Если предположить, что наблюдаемые конверсии не изменялись (в общем случае), выборка в 200 пользователей на версию должна быть вполне достаточна. Он может или опровергнуть нулевую гипотезу или результаты так и останутся безрезультатными, в таком случае не будет понятно, есть ли какая-то разница между версиями. В защиту Джохана, он недавно написал, что он берёт во внимание значение, и я с нетерпением жду более убедительные данные этого интригующего теста.
Путаница с процентами
Значимость – это не единственная скользкая проблема, встречающаяся в A/B тестах. Для новичков, описание улучшений конверсии всегда сопряжено с трудностями. Поскольку конверсия обычно измеряется в процентах (в нашем примере, 31,3% и 40,7%), то есть два способа описать улучшения. Мы можем сказать, что конверсия улучшилась на:
- 9,4% — разница между двумя значениями
- 30,4% — на сколько 40,7% больше чем 31,3%
Любое описание улучшений должно быть рассмотрено со всех сторон: какой вариант должен быть использован? Опасность в том, что очень легко выбрать неправильный способ описания в неправильном контексте.
Спираль смерти A/B
A/B тесты также обладают общей количественной проблемой, они говорят нам «что», на не «почему». Я писал об этом ранее в статье «What if the design gods forsake us». Желательно сохранить численные тесты с качественной оценкой (например, партизанский (guerrilla) тест юзабилити), чтобы мы могли принять обоснованное решение, если по итогам полученных данных получается, что мы должны переделать дизайн.
Даже с сохранёнными данными иногда A/B тесты просто неподходящий инструмент. Они могут дать отличное понимание ситуации в некоторых случаях, но при использовании в неправильных местах, они могут стать тупиком или, что ещё хуже, орудием разрушения. Логический позитивизм и дизайн не смешиваются, не всё что мы делаем можно эмпирически проверить, некоторые полагаются на A/B тестирование вместо обычного дизайнерского осмысления. Я называю это «спираль смерти A/B», и это выглядит примерно так:
Дизайнер: Вот новый дизайн экрана. Вы можете увидеть, что там появилась новая навигация, изменена цветовая палитра и я переместил основное управление во область со вкладками.
Заказчик: Ух ты, это большие и рисковые изменения для такого экрана. Вот что я тебе скажу: давай их протестируем раздельно, чтобы посмотреть, что из этого сработает, а что нет.
Как говорит пословица: «Ты не сможешь перепрыгнуть 20-футовую пропасть в два десятифутовых прыжка». Выбор только тех элементов дизайна, которые «одобрил» A/B тест, может привести к фрагментированному и бессвязному дизайну. Возможно, это принесёт немного больше денег в краткосрочной перспективе, но это путь к плохому UX и повредит в долгосрочной перспективе.
Будьте верны данным
Учитывая потенциальную опасность, я обеспокоен тем, с какой наивностью некоторые дизайнеры подходят к количественному тестированию. Ми статистики вознаграждает честный поиск истины, не дилетантство, и я рекомендую любому дизайнеру, собирающемуся использовать науку статистики, познать основы теории или, в конце концов, найти партнёра с подходящими знаниями.
Дефектный A/B тест, будь это статистически незначимый, неправильно проведённый или неправильно описанный, не более чем неподтверждённая информация. Это такое же преступление, как покрасить весь сайт в красный по просьбе всего одного пользователя. Тем не менее, нетерпеливый дизайнер, видя пример, который я привёл выше, может быстро прийти к неправильному выводу: «Я должен удалить стрелочку с кнопки продолжить, это на 30.4% лучше.» Возможно, этот дизайнер заслуживает того, что получает. Возможно, он всё это делает лишь для галочки после прочтения «12 способов сделать юзабилити твоего сайта лучше». Так что они не понимает ни математику, ни контекст этого эксперимента (сроки, база пользователей, сопутствующие задачи), он просто схватил палку не с того конца.
Тем не менее, он делает это.
Не будьте тем дизайнером.
Оригинал: Statistical significance & other A/B test pitfalls
No related posts.
Pingback: pyjama
Pingback: love spells
Pingback: http://www.pyjama-shop.nl
Pingback: Vegas Indoor Skydiving
Pingback: scott tucker mortgage marketing genius
Pingback: comprar ouro
Pingback: Michigan Internet Payday Loans
Pingback: compare auto insurance rates texas
Pingback: Go Here
Pingback: Goozle Zone
Pingback: singapore company incorporation
Pingback: payday loans online
Pingback: roofing Austin
Pingback: roof company
Pingback: JUAL JAM TANGAN MURAH
Pingback: que es un blog
Pingback: Montana Tax Lawyers
Pingback: Austin roofing
Pingback: how to lose belly fat fast
Pingback: Indianapolis roofing
Pingback: http://fastcashadvancepaydayloans.com
Pingback: http://radiatorcenter.com.ua
Pingback: post apocalyptic short
Pingback: roofing Austin
Pingback: Goozle Zones
Pingback: replica watches
Pingback: payday loan
Pingback: cigarette electronique
Pingback: cash advance
Pingback: googlezerlunited
Pingback: How to pull a tooth
Pingback: Movie Clips
Pingback: stickers
Pingback: hearing loss
Pingback: cystitis
Pingback: bmw specialists barrow
Pingback: flooring bromley
Pingback: cash loan stores
Pingback: cheap loans uk
Pingback: paydayloansplanet.com
Pingback: Read More
Pingback: zig zaga
Pingback: injury attorney
Pingback: new york asian escort
Pingback: ZigZag
Pingback: Jeff Johnson
Pingback: group team building events
Pingback: Promotional Products
Pingback: ZCode System
Pingback: new york asian escorts
Pingback: model train
Pingback: Secured homeowner loans
Pingback: Contemporary Lighting
Pingback: Jose Antonio Gallego BBVA
Pingback: jfd98ayhcim
Pingback: la halle de martigues
Pingback: web design barrow
Pingback: Hubschrauber
Pingback: jfd98ayhcim
Pingback: jfd98ayhcim
Pingback: lida zayiflama
Pingback: lida
Pingback: lida
Pingback: lida
Pingback: fsgb80v7cbwe
Pingback: jfd98ayhcimg
Pingback: training management systems
Pingback: Elektrische Zahnbürste
Pingback: small websites hosting
Pingback: Израиль отдых на море
Pingback: мертвое море
Pingback: Мертвое море туры
Pingback: Туры на Красное море Израиль
Pingback: [2:45:46 AM] Alex: WordPress business themes
Pingback: godaddy bluehost comparison
Pingback: Best Buttons Web Elements
Pingback: Funny Animals Characters Vectors
Pingback: Opencart CSS templates
Pingback: raspberry ketone reviews