5000 קבוצות מכל העולם התגייסו לאתגר שהציבה חברת נטפליקס: מי שישפר ב-10% את דיוק המלצות המערכת ללקוחותיה – יזכה במיליון דולר! מדעני מחשב, פסיכולוגים, כורי מידע, סוציולוגים, אנשי שיווק, וחוקרי התנהגות – שינסו מותניים, אבל כנראה מי שיקטוף את הפרס (בספטמבר הקרוב) היא קבוצה בינלאומית שזרוע אחת שלה ממוקמת במעבדות יאהו! בחיפה. אחד ממובילי הקבוצה, ד"ר יהודה קורן*, הסכים להתראיין לבלוג feelternet.
נטפליקס היא חברה אמריקאית שהוקמה ב-1997 ועוסקת בהשכרת עותקי סרטי קולנוע ותוכניות טלוויזיה שלקוחות מזמינים באינטרנט ושמגיעים אליהם בקובץ להורדה למחשב או כ-DVD במעטפה. נכון להיום יש לה כ-10 מיליון מנויים ושיטה שמוכיחה עצמה: כל מנוי מכין רשימה של סרטים שהוא מעוניין שישלחו אליו, ולאחר הצפייה הוא לרוב מזין משוב על מידת הנאתו מהסרט בדמות דירוג הנע בין כוכב אחד לחמישה. כמו כן, המערכת מאפשרת למנויים לבצע פעולות נוספות כמו המלצה על סרטים למנויים אחרים וכתיבת ביקורות על הסרטים.
לפני כשלוש שנים יצאה החברה בהכרזה שמי שישפר ב-10% את דיוק המלצות המערכת ללקוחות (כלומר את יכולת החיזוי) יזכה במיליון דולר. התחרות עוררה עניין עצום ברחבי העולם, משכה אלפי מתמודדים והד תקשורתי ומדעי ניכר.
עבור נטפליקס שיטת ההמלצות היא אבן דרך: שני שליש משכירות הסרטים בנטפליקס נעשה במערכת ההמלצות של החברה. לכן, שיפור באיכות ההמלצות יתורגם במישרין לשביעות רצון גוברת של הלקוחות.
ד"ר קורן, איך הגדרת את האתגר?
הגדרה טובה היא מתמטית. נתונה מטריצה המבטאת קשרים בין לקוחות וסרטים, ובה תאים רבים שערכם לא ידוע. המטרה היא לאמוד את התאים החסרים בהסתמך על אלו הידועים.
מעבר להגדרה מתמטית זו אזכיר שמדובר במאמץ ארוך בן שלוש שנים, וטבעי שההגדרה התעדכנה כל הזמן. בשהותי בארה"ב הייתי מנוי נלהב של נטפליקס, והסתמכתי רבות על מערכת ההמלצה שלהם (מתי בארצנו הקטנטונת?). כשהתחרות התחילה, באוקטובר 2006, תפס אותי העניין מיד, הן בגלל המשיכה האישית כלקוח החברה, והן כמדען המתעניין ברשתות חברתיות ובניתוחן. בזמנו הגדרתי את הבעיה כחקר של רשת ענקית הקושרת סרטים ובני אדם. בגישה כזאת התחלתי לעבוד על הבעיה במלוא המרץ. כעבור חודשים הסתבר שתובנותיי הראשונות לא כ"כ מועילות. הגדרת הבעיה כניתוח רשת חברתית לא מובילה לגישות יעילות לפתרון. באותו שלב שאבה אותי הבעיה בחוזקה, ועברתי לגישות טבעיות יותר אליה (שמוזכרות למטה).
במה שונות המלצות על סרטים מהמלצות על ספרים או על מוזיקה?
לסרטים פנים רבות, בוודאי יותר מלמוזיקה וכנראה גם יותר מלספרים. הדבר מתבטא בכך שהיחס לסרט נגזר ממאפיינים הקשורים בעלילה, בז'אנרים, בשחקנים, בבמאי, באיכות הצילום, בנופים, באופן הדיאלוג, במוזיקת הרקע ובעוד גורמים רבים. על כן המאפיינים המגדירים את אופיו של סרט הם מורכבים מעל ומעבר למצופה. בנוסף לכך, מכיוון שצפייה בסרט היא פעולה ממושכת יותר מהאזנה לשיר, החשיבות של מתן המלצות מדויקות רבה יותר.
מה גילית בשלב הראשון כשחקרת את תבניות ההתנהגות?
אחת התגליות הראשונות היא יכולתן של מערכות למידה ממוחשבות לזהות קשרים מעניינים בין סרטים בהסתמך על תבניות התנהגות בלבד. למשל, בלי לדעת דבר על כותרת הסרטים או על תוכנם, זיהתה המערכת מיד את קבוצת סרטי Star Trek או סרטיו של וודי אלן וכו', כל זאת על ידי ניתוח התנהגות הלקוחות.
האם ניתן לנטרל מצב רוח משתנה ברגע ההמלצה?
מצאנו שמצב הרוח ביום מסוים משפיע מעבר לציפיותינו על כל הקלט שמקבלים מהמשתמש באותו היום. לכן מאמצים רבים שלנו הופנו לזיהוי מצב הרוח הרגעי של המשתמש ולבידודו באופן שלא ישפיע יותר מהראוי על מגמות ארוכות טווח.
איך פתרתם את האתגר? ואילו גישות לפתרון ניסיתם ובחנתם במהלך התחרות?
אימצנו גישות מוכרות אך הפכנו אותן לפורמליות, ומה שיותר חשוב, ביטאנו באמצעותן יותר מאפיינים של מידע. כך לדוגמה ביצענו אנליזה עמוקה של מה שקרוי "קשרי שכנויות" בין סרטים. דהיינו, אם ידוע לי שהמשתמש דירג את סרט א' מעל הממוצע, כמה זה ישנה את אומדני על דירוגו לסרט ב'? כך זיהינו קשרים בין זוגות רבים של סרטים.
גישה אחרת, מתמטית יותר, מחפשת ייצוג מספרי, מעין דנ"א, לכל סרט ולכל משתמש. ייצוג זה מתקבל על ידי תהליך למידה ממוחשב. הוא מאפשר השוואה ישירה בין סרטים למשתמשים ומוביל למציאת קשרים מעניינים ביניהם.
האם זיהית תבנית החוזה הצלחה של סרט?
אחד הלקחים שלמדנו הוא שתבניות שמקורן בתובנות אנושיות חלשות בהרבה מתבניות מורכבות שמכונות (מחשבים) יכולות למצוא. לדוגמה, חיפשנו ומצאנו תבניות תלויות שחקן, כמו למשל "מי שלאחרונה אהב סרטי שוורצנגר יאהב גם את יתר סרטיו". אולם התברר לנו שהמערכות האוטומטיות זיהו תבניות אלו בצורה טובה יותר (ללא כל צורך לדעת על קיומו של שוורצנגר). לכן עיקר מאמצינו הוא לא במציאת תבניות המנבאות דירוגי סרטים, אלא בזיהוי כלים שיאפשרו לאלגוריתמים למצוא תבניות מעניינות יותר. אגב, בעוד גישה זו מביאה לתוצאות מדויקות יותר, קשה למחשב לתת תבניות אינטואיטיוויות הקלות להסבר. רוב התבניות שמחשב מוצא הן סבוכות ולא קלות להבנה.
במבט כולל, האם מושכרים יותר רבי מכר מאשר סרטים הנמצאים בזנב הארוך?
אין ספק שמיעוט נבחר של סרטים מושך את חלק הארי של פעילות המשתמשים. למשל חמישית מהסרטים אחראים לכמעט מ-90% מפעילות המשתמשים. למעשה נטפליקס עושה רבות כדי לשנות זאת. הם מחזיקים מעל 100 אלף כותרים, רובם ישנים. האינטרס שמשתמש יכיר ויבחר סרטים פופולריים פחות הוא כפול: ראשית, זה יפתח למשתמש חלון לאפשרויות רבות יותר. שנית, מחירם של סרטים אלו זול יותר. למעשה, אחת המטרות המוצהרות של מערכת ההמלצה היא להפגיש משתמשים עם סרטים מהזנב הארוך.
האם המלצה של סרט חריג בשיטת One 2 All באתר החברה לא יעילה יותר מהמלצה אישית?
לא כ"כ כדאי להמליץ על סרט חריג באופן נרחב ללא אנליזה טובה הבודקת התאמה לקבוצת המשתמשים, מכיוון שיש כאן חיסרון אכזרי לחברה: מותר להיכשל עם רב מכר, אבל זה הרבה פחות נסלח עם סרט שולי ולא ידוע.
האם יש דרך לחבר בין תכונות הסרט לפרופיל משתמש באתר חברתי?
זאת שאלה מצוינת העומדת בחזית המחקר. תשובה מוחלטת לא ידועה. הדבר גם תלוי בטיב הקשר החברתי. כך למשל לאנשים שחולקים בית משותף סביר שיהיו הרגלי צפייה שונים בתכלית. לכן לא כל קשר חברתי הוא רלוונטי כאן.
מהי המסה הקריטית של המלצות הנדרשת לחיזוי מדויק?
אני מניח שכוונתך למסה קריטית של "דירוגי משתמשים". מסתבר שדיוק החיזוי עולה באופן עקבי ככל שמקבלים יותר משוב מהמשתמשים, עד בערך ל-1000 דירוגים, ששם מתחילה להיווצר רוויה. בממוצע משתמש נטפליקס מספק כ-200 דירוגים, מה שמאפשר חיזוי מדויק ברוב המקרים. אולם משתמשים רבים נותנים פחות מ-20 דירוגים, ומהווים אתגר משמעותי.
מה למדת על טבע האדם ועל מנגנון ההחלטות וההעדפות שלו? האם יש תובנה אחת בסיסית שחוזרת על עצמה?
מעניין עד כמה אפשר ללמוד על מאווייו של אדם מתוך ניתוח קלטים בודדים ונקודתיים שהוא סיפק. להמחשה, אם נבקש מאדם שיגדיר לנו את מאפייניהם של סרטים שהוא אוהב, סביר שיתקשה לתת הגדרה מועילה. אפילו אם נסייע לו על ידי הגדרת ז'אנרים כלליים, לא סביר שנקלע במדויק לטעמו. אולם אם נשאל שאלות פשוטות בהרבה, כלומר מה דעתו על סרטים ספציפיים שראה, נוכל להגיע להגדרות מדויקות ויעילות על העדפותיו. כל זאת בזכות מה שמכונה "אינטליגנציה שיתופית". דהיינו, אם אדם יחיד יספר לנו אילו סרטים ספציפיים הוא אהב, לא נוכל להכליל זאת באופן נאות. אולם כשעוד אנשים רבים מספרים לנו, כל אחד בנפרד, על העדפותיהם, מתגבשת תמונה כוללת ומסודרת המאפשרת לזהות תבניות מרתקות ולאפיין כל פרט בודד בקבוצה.
לסיכום, בעוד מנועי החיפוש מציגים למשתמש את מה שהוא הגדיר לחיפוש (במילים אחרות: המשתמש כבר מכיר את מה שהוא מחפש), מערכת המלצות חושפת למשתמש מידע שהוא לא מכיר תוך ניסיון להתאים את המידע להעדפות האישיות. לדעתי לשם צועד עולם הפרסום העתידי.
עוד על מורכבות מערכת ההמלצות אפשר לקרוא כאן וגם כאן.
אנו מאחלים בהצלחה לד"ר קורן ולצוותו ונשמח לעדכן כאן בהמשך.
יהודה קורן סיים ב-2003 דוקטורט במדעי המחשב ובמתמטיקה שימושית במכון ויצמן למדע. מאז כיהן כחבר בכיר במעבדות המחקר של AT&T בניו ג'רזי. לקראת סוף 2008 הצטרף קורן למעבדות המחקר של יאהו! בחיפה כמדען מחקר בכיר. הוא נחשב היום כמומחה מוביל בעולם בתחום מערכות המלצה
תגובות אחרונות