על החמדנות של מבחני AB

פוסט שני בסדרת המה אנחנו עושים לא נכון עם מבחני AB ומה אנחנו יכולים לעשות כדי לטפל בזה!

לפוסטים האחרים בסדרה:

בכל פעם שמתחילים לדבר על מבחני AB, תמיד הדוגמה הפשוטה ביותר שהולכים אליה היא הכפתור באדום (כן, הכפתור באדום יהיה שם הספר נואר על AB טסטינג שאוציא), וההנחה שכפתור ירוק מתפקד טוב יותר – או להפך.
ובאמת הגיוני לחלוטין להשתמש בדוגמה הזאת, כי היא ממחישה מאוד טוב את הקונספט של משתנה מול ביקורת, זאת לא דוגמה מורכבת כל כך שהיא יכולה לבלבל, והיא אפילו מסתדרת לנו עם עניין המציאות והרמזורים וכו', אבל מה קורה כשהדוגמה הזאת מכילה בתוכה בעיה מורכבת יותר?

 

אז בואו נקפוץ לרגע לחיים האמיתיים שלנו, יש לנו את הכפתור האדום שלנו, הוא מאוד בולט והכל טוב ויפה, לאחר מיטאפ מאוד מוצלח בנושא, אשת הפרודקט מגיעה אלינו ואומרת שהיא קראה שבתרחיש הספציפי שלנו (מוגדר כהלכה על ידי כל המגבלות) – כפתור ירוק יגדיל את יחס ההקלקות על הכפתור ויניב תוצאה רצויה יותר.
התמזל מזלנו וכולנו עובדים בארגון מונחה דאטה אמיתי – ואנחנו מבצעים מבחן AB יפה – ומה אתם יודעים – מסתבר שירוק באמת עובד לנו טוב יותר, התוצאות מובהקות וכולנו מרוצים.

 

מנהל הצוות שמע את דבר המעשה הזה בארוחת הצהריים והתלהב – "עכשיו, גם את הטקסט תצבעו בירוק! אותו הירוק! ירוק זה טוב!".
עכשיו, מצד אחד אתן חושבות לעצמכן, "כן? טקסט ירוק על רקע ירוק זה הדבר שירים את האחוזים? נשמע לא הגיוני"
מצד שני אתן חושבות – טוב, לירוק יש קונטקסט תרבותי, אולי המלל מיותר.
מצאתן את ההצדקות והרצתן את המבחן, רק כדי לגלות שאם לא כותבים לאנשים מה צריך לעשות – הם לא יודעים מה לעשות (ט.ל.ח)

מנהל הצוות מתעצבן, זורק טנטרום ומחליט להחזיר את הכפתור לצבע אדום, כי ירוק לא באמת משפר.

 

מה בעצם הבעיה המתודית (ולא הניהולית) שאנחנו נתקלים בה?

מבחני A/B, ממש כמו בני אדם, הם חמדניים מטבעם וככאלה דורשים מאיתנו הבנה שלמבחן עצמו אין זיכרון או שימור ידע על המצב הקודם או על אופי השינוי – ובסדרה לא מתוכננת של ניסויים – אנחנו יכולים לקבל מסקנות שגויות (כמו, הצבע ירוק לא עובד אף פעם).

אנחנו צריכות לזכור שאחד הסיכונים שלנו בהרצה של מבחני AB מרובים – היא הסכנה שמשתמש ייחשף לואריאנט מסוים במבחן הראשון ולוריאנט אחר במבחן השני, ואז יהיה לנו ערבוב של נתונים וחוסר יכולת להצביע על קשר ישיר, ויהיה לנו רעש ובלאגן ופשיעה וילדים שלא מחזירים ספרים לספריה בזמן, ואנחנו לא מעוניינים בכך, נכון?
נכון.

 

אז מה אני מציע?

כאשר אנחנו יכולים לנצל את ההזדמנות ובמקום לבנות מבחן אחד – לחשוב ולתכנן סדרה ארוכת טווח של ניסויים, אנחנו יכולים לייצר Funnel של מבחני AB ולהשתמש במשתתפי המבחן שנצבעו לטובת המבחן הבא בתור, נדגים:

אני רוצה לבצע ניסוי עם טווח בינוני עם שני שלבים – אני רוצה לבדוק בניסוי הראשון, מה ההשפעה של אחוז הנחה מסוים על ההכנסות – בשביל המבחן אני משתמש בוארינט של עשרה אחוזי הנחה ובקבוצת ביקורת ללא אחוזי הנחה.
לאחר שהמבחן הזה מסתיים, אני רוצה להעלות השערה חדשה – לקוחות שנחשפו לאחוז ההנחה במבחן ירכשו ביותר דולרים כשתוצג להם הנחה קטנה מאחוז ההצגה המקורי.
הרציונל במקרה הזה, לאנשים יש זיכרון, הם יניחו שאם אחוז ההנחה יורד, עוד מעט לא תהיה להם הנחה ולכן כדאי להם לקנות עכשיו (אפשר למצוא רציונליזציה מקבילה גם לאחוז הנחה גבוה יותר).
בסיום המבחן הזה, בעת אנליזת התוצאות – בעצם נוכל להגיד מה היה הערך של השינוי על הקבוצות בהצגת אחוז הנחה מסוים, ובסוף התהליך, עוד מידע מאוד מעניין כל תגובת לקוחות במקרה של ניסויים עוקבים.

בתצורה הזאת, אנחנו בעצם משתמשים בחמדנות המבחנים על מנת לקבל מושג טוב בהרבה על התנהגות הדגימות שלנו.

 

* הערה על ההשערות – אני ניסחתי פה את השערת האלטרנטיבה בשביל הפשטות והרצף, למרות שאם אנחנו אומדים השערות, ההשערה שאנחנו צריכים לדבר עליה היא השערת האפס, כלומר, אנחנו מניחים שהשינוי לא ישפיע בצורה מובהקת.

 

עוד מאמרים

על חוסר הטרנזיטיביות של מבחני AB

והנה הפוסט השלישי (והאחרון?) בנושא מבחני AB, אחרי שבפוסט הראשון דיברנו על מוגבלות המסקנות שלנו ממבחנים, ובפוסט השני דיברנו על החמדנות של

Analysis Paralysis

Analysis Paralysis

היי! אל תתביישו! צרו קשר

ממש פה!

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *