המוגבלות העיתית של מבחני AB

בכל פוסט שאני כותב, אני תוהה לעצמי לאן זה לוקח את האתר הזה ומה הערך שאנליסטיות יכולות להפיק מהעמוד הזה – ובעוד שאני כותב הרבה על קריירה, אני מרגיש שהאתר הזה (ובגדול ה'מותג' של אנאליסיס פראליסיס) לוקה בנושאים מקצועיים יותר.

עכשיו, יש לזה סיבות, כמובן, הפלטפורמה לא מאפשרת לי להציב תמונות בתוך הטקסט, כך שאת כל הנקודת אני צריך לבאר בצורה מילולית, ולפעמים זה מורכב, בכל מקרה – כתבתי סדרה של שלושה פוסטים מקצועיים, ונקווה לטוב!

מתישהו באחרונה (נכון ליום כתיבת התחלת הטיוטה זה היה השבוע, אבל אני לא יכול להתחייב בפני עצמי לכתיבה רציפה) הייתי בכנס של מאנדיי שארגן אלדר מוזיקנסקי (Eldar Muzikansky) והיו שם שתי הרצאות מעניינות של אלון קורם (Allon Korem) ושל מיכאל אלבז (Michael Elbaz).

שתי ההרצאות היו מעשירות, ונגעו בהמון נקודות רלוונטיות ומעניינות אבל (וכמו ששני המרצים יעידו – לא כיסו אפילו פרומיל מסך הבעיות המעניינות של הנושא) – מה שנתן לי השראה קלילה לדבר לרגע לא על איך עושים מבחני A/B אלא דווקא על המוגבלות של מבחני AB.

 

הפוסט הזה יעסוק בנושא המוגבלות העיתית של מבחני A/B

חשוב לי לציין על ההתחלה, הדוגמאות שאני אתן פה תהיינה מטופשות, כמובן, כי אני מנסה להעביר נקודה – אבל אני מקווה שמתוך הנקודה נלמד לזהות דפוס, ומתוך הדפוס נוכל גם להתדיין עם עצמנו\חברות הצוות שמבצעות את המבחן. 

בשביל הקונטקסט, בואו נדמיין שיש לנו צוות אופרציה שתפקידו היחיד הוא הזנת טקסטים לתוך עמודי אינטרנט, בתקווה שבמסגרת חיפוש בגוגל (מה קוראים אותו 'חיפוש אורגני') הוא יצליח להכניס את הקהל הכי רלוונטי לתוך העמוד על מנת לייצר רכישה (או המרה מכל סוג, פחות רלוונטי)

 

אז הצוות הזה בוחן את האתר שלו בחודש אוגוסט, ועולה ההשערה הבאה:

"אם לקראת סוף ספטמבר נציב ביטויים שקשורים לחג המולד ברחבי האתר, הדפים האלה יעלו גבוה יותר במנועי החיפוש עבור ביטויים שקשורים למוצר ולחג המולד, וכתוצאה מכך יניבו לנו יותר כניסות רלוונטיות"

תוצאות, אותן הגדיר הצוות בצורה מופתית, מגיעות, מחליטים לבצע מבחן t של דגימות תלויות בשביל לבדוק אבחנה של לפני ואחרי, ולאחר ביצוע כל העבודה האנליטית – אנחנו מקבלים שקבוצת האחרי גבוהה בצורה משמעותית ויש מובהקות ואיזה יופי לכולנו – כולם מרוצים, מציגים להנהלה, מחיאות כפיים ועכשיו נשאלת השאלה – מה המסקנה מהניסוי.

 

המסקנה היא כמובן – ככל שנציב ביטויים בעמודים של חג המולד – העמודים שלנו יעלו.

החברים מהצוות מבסוטים, יש קייס סטאדי, והם אפילו מציגים את התוצאות במהלך מיטאפ עם פיצה, בירה ונטוורקינג.

צוות מארגון אחר, שומע על הניסוי ועל תוצאותיו במהלך מיטאפ, ומחליט להטמיע את השינויים כלשונם – וכך יוצא שבחודש מא כלשהו, אתר של ארגון אחר עוטה חג (המולד) – מפזרים ביטויי קריסטמס, ירוק ואדום, והו-הו-הו.

עכשיו, ברור לנו שתוצאות הניסוי (לפחות ברמה הישירה והברורה) לא יפעלו לטובת המנסים, נכון?

דמיינו שהייתם נכנסים לאתר קומרס כלשהו וכל האתר שופרים ותפוח בדבש ושנה טובה כשאתם בכלל מחפשים סופגניות (גילוי נאות – אני תמיד מחפש סופגניות).

הבעיה הנוצרת היא שמסקנות הניסוי לא הוגבלו להתייחס לצירי הזמן, ובעוד שעכשיו נתתי דוגמה שהיא קלאסית, אין סיבה להניח שלציר הזמן אין השפעה על כל שאר המבחנים שאנחנו מקיימים.

נרחיב את הנקודה ונגיד שכולנו מכירים ומכירות את הנושא הזה – הרי אחת הסיבות המוצהרות שאנחנו מדברים על משך זמן של שבועיים-שלושה לרוב זה כדי לתפוס עונתיות שבועית (כי התנהגות במלך ימי עבודה יכולה להיות שונה מהתנהגות במהלך סופי השבוע)

אז אם אנחנו יכולים להסכים עם הטענה שמסקנות ממבחני AB מוגבלות מבחינת צירי הזמן, אנחנו לא יכולים להמשיך לטעון 'קבוצת השינוי מתפקדת יותר טוב מאשר קבוצת הביקורת' מבלי לתת את הדעת על ארועים משמעותיים בצירי הזמן ומאפייני האוכלוסיה.

 

מה אני מציע?

שכשאנחנו מציגות סיכום של מבחן AB, אנחנו צריכים להציג את כל המידע שיכול היה להשפיע ויכול לייצר הגבלה על מסקנות הניסוי.

מבחינה דמוגרפית

אם יצרנו מבחן ובאופן מקרי לחלוטין השתתפו בו רק בני נוער, לא נוכל בהכרח להחיל את מסקנות הניסוי על שכבות גיל אחרות.

אם המבחן שלי הכיל רוב גברי, באופן מקרי לחלוטין, להחיל את המסקנות על כל האוכלוסיה – זה דבר בעייתי יכול להיות מסוכן (היוש מבחנים קליניים עם תת-ייצוג לנשים).

מבחינת צירי הזמן

טוב, חג המולד שמח והו-הו-הו אבל גם ארועים מהותיים, נגיד מלחמה באירופה יכולה להשפיע על רכישות של פריטים מסויימים, גם אם זה לא מקושר באופן ישיר (יחד עם זאת, צריך להזהר עם מחשבה על אפקט הפרפר ושהכל משפיע על הכל – צמצמו את ההגבלות לדברים שיש בהם הגיון)

מבחינת המערכת שלנו

אם בדקנו אלמנט מסויים בדף אבל מערכות הבק-אנד שלנו השתנו מאז – תוצאות המבחן יכולות להיות לא מדויקות או מהימנות עוד.

 

לפוסטים האחרים בסדרה:

עוד מאמרים

על חוסר הטרנזיטיביות של מבחני AB

והנה הפוסט השלישי (והאחרון?) בנושא מבחני AB, אחרי שבפוסט הראשון דיברנו על מוגבלות המסקנות שלנו ממבחנים, ובפוסט השני דיברנו על החמדנות של

על החמדנות של מבחני AB

פוסט שני בסדרת המה אנחנו עושים לא נכון עם מבחני AB ומה אנחנו יכולים לעשות כדי לטפל בזה! לפוסטים האחרים בסדרה: המוגבלות

Analysis Paralysis

Analysis Paralysis

היי! אל תתביישו! צרו קשר

ממש פה!

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *