פייסבוק חיים את זה, בנקים משתמשים בזה כדי לחזות נטישה של לקוחות, והמשטרה תיעזר בזה כדי לזהות מי עומד לבצע פשע. מהפכת ה"ביג דאטה" כבר כאן
בן קמינסקי | 10 בנובמבר 2013 | מדע וטכנולוגיה | 12 דק׳
ה"ביג דאטה" יחליט בשבילנו
המכתב המיוחל מהאוניברסיטה הגיע סוף סוף. המועמד הנרגש קורע את המעטפה במהירות, ושולף את התדפיס. "התקבלתי או לא התקבלתי?" הוא שואל את עצמו. אבל התשובה שהוא מקבל קצת יותר מורכבת: "על בסיס הרקע האישי שלך, המערכת שלנו מעריכה שיסיכויי הנשירה שלך במסלול הלימודים 'היסטוריה של ימי הביניים' גבוהים במיוחד. תחת זאת אנו ממליצים לך לשקול את אחד מהמסלולים הבאים: בלשנות, וטרינריה או מנהל עסקים שבהם סיכויי ההצלחה שלך גבוהים באופן משמעותי".
"אבל איך זה יכול להיות?" שואל את עצמו המועמד ללימודים באוניברסיטה, "ממוצע הבגרויות שלי הוא 98, וקיבלתי 724 בפסיכומטרי". זה אולי נכון. אבל הוא לא לקח בחשבון את מה שיודע רק המחשב: 50 אחוז מהתלמידים שהצטיינו בלימודי פיזיקה אבל לא בלימודי לשון, שאמם עורכת דין ושאביהם יליד ארצות הברית – נשרו מתוכנית הלימודים שחשק בה המועמד.
זה אמנם תסריט בידיוני. אבל זו גם מציאות שמתחילה לקרום עור וגידים. מערכות מתקדמות באוניברסיטאות בעולם מבצעות ניתוחים מורכבים על כמויות מידע אדירות כדי לבחון תבניות ולנבא את סיכויי ההצלחה והנשירה של סטודנטים במוסדות להשכלה גבוהה. מחלקות ייעוץ באוניברסיטאות מתחילות להיעזר בכלים שכאלה כדי להכווין את התלמידים. מערכת אחרת שעוררה סערה מנבאת את סיכויי הנשירה מלימודי התיכון של תלמידים בכיתה א'.
העולם אוגר יותר ויותר מידע, והמחשבים יותר ויותר מסוגלים לנתח את המידע הזה, להסיק ממנו מסקנות, ולעשות בשבילינו את הבחירות שלנו. כדי להיות מסוגלים להפיק תועלת מכמות המידע האדירה הזאת נדרשות גישות עבודה חדשות וטכנולוגיות חדשות. התחום המתפתח הזה, המכונה Big Data, צפוי לשנות את הכלכלה ואת החיים שלנו במגוון רחב מאוד של דרכים.
במה תחלה בעוד 20 שנה
"אנחנו מייצרים המון המון דאטה. אנחנו מייצרים דאטה יותר ממה שאנחנו יכולים לצרוך אותו", אומר בראיון לאפוק טיימס גלעד שיינר, סמנכ"ל שיווק במלאנוקס, שהטכנולוגיה שפיתחה משמשת חברות רבות בעולם לפתרונות ביג דאטה. "ככל שאתה מייצר יותר דאטה, כך יש לך הרבה יותר דברים שאתה יכול ללמוד מתוך הדאטה הזה".
שימושים עסקיים לביג דאטה יש בשפע. נגיע גם אליהם עוד מעט. אבל שיינר מפנה את תשומת הלב דווקא לתחום אחר שמתפתח בעולם הביג דאטה – רפואה. שיינר מסביר כי כיום יש דרישה מהרופאים להעלות את כל המידע למחשב. שילוב של מידע שנאסף מכל העולם יכול להביא לתובנות שמחקרי רפואה מסורתיים לא יכלו להגיע אליהן.
"אם אתה מתחיל להסתכל על כל הדאטה שנאסף לגבי בדיקות רפואיות שאנשים עושים, ואתה מתחיל לעשות חתך לאורך שנים, אתה יכול להסתכל על מגמות שקורות", הוא מסביר. "אם אני יכול להסתכל על המצב הרפואי שלך, על ההתקדמות הרפואית שלך, ואני יכול להסתכל על כל המקרים שקרו בעולם, אני יכול לשערך כבר מעכשיו במה אתה הולך לחלות בעוד כמה שנים קדימה".
שיינר מסביר שחיזויים שכאלה על בסיס ביג דאטה יוכלו לאפשר טיפול מונע עוד לפני שמתפרצת המחלה. "ככל שנמשיך לייצר יותר ויותר מידע, כך יהיו שימושים רבים נוספים לדברים האלה", אומר שיינר.
יש שימוש נוסף שמתבטא כבר כיום. אנחנו רק לא יודעים בהכרח לזקוף אותו לזכות הביג דאטה.
"לגופי ביטחון יש אפשרות לעשות ניתוח מאוד מאוד מהיר של תמונות וסרטים שאנשים מצלמים כדי לחקור אירועים בצורה מאוד מהירה", מסביר שיינר. באמצעות כלים לזיהוי פנים, למשל, ניתן לאתר במהירות חשודים מזירת האירוע.
שילוב של תצלומים ממצלמות אבטחה ותצלומים שצילמו אנשים במכשירים הסלולריים שלהם, נתונים ממשלתיים, נתונים מהרשתות החברתיות, יחד עם אמצעי מחשוב מהירים ועוצמתיים, יכול להפיק בהרף עין מסקנות שהיו דורשות פעם צוות בלשים עצום ושבועות של עבודה.
במקורות זרים התפרסם לאחרונה שיחידת 8200 הישראלית הצליחה לאתר הקלטות של בכירים במשטר אסד המוכיחות את מעורבות המשטר בהתקפה הכימית. איתמר בן-חמו, מנכ"ל חברת Vision.bi המספקת פתרונות בינה עסקית באמצעות ביג דאטה, מסביר שככל הנראה זוהי דוגמה נוספת לשימוש בביג דאטה.
בן-חמו מסביר כי גופי ביטחון ומודיעין מאחסנים כמויות אדירות של הקלטות במאגרי מידע עצומים ומבצעים עליהם ניתוח אוטומטי. טכנולוגיה שנמצאת בשימוש בגופים שכאלה מסוגלת להמיר בזמן אמת את ההקלטות למלל כתוב, ולבצע ניתוח מיידי של מספר עצום של שיחות טלפון.
בין אם מדובר בשיחות טלפון מוקלטות, תמונות וסרטונים, מידע רפואי, סטטוסים ברשתות החברתיות, בתיעוד נתוני הגלישה באתר איטרנט או נתוני מכירות, או מאגרי מידע ממשלתיים – פתרונות של ביג דאטה שואפים להצליח לחבר ביניהם ולהסיק מהם מסקנות במהירות. אלה מסקנות שעד לאחרונה לא ניתן היה להסיק, או שהיה נדרש כמות ומשאבים אדירים כדי להגיע אליהן. פתרונות הביג דאטה מבזרים את העבודה המורכבת למספר גדול של מחשבים. המחשבים מבצעים את חלקם, ומחזירים את התשובה למחשב המרכזי, שמארגן ביחד את כל הנתונים ומציג את המסקנות.
המחשב יבחר בשבילך
אמיר רסקין עובד בתחום המידע כבר מ-1985. היום הוא יועץ ראשי בחברת B-Pro המציעה פתרונות ניהול משולבי טכנולוגיה, כולל פתרונות ביג דאטה. הוא מסביר בראיון לאפוק טיימס שבמקרים רבים אנשים לא אוהבים לבחור. אנחנו מעדיפים שיבחרו בשבילינו.
"איך נטפליקס הרגה את בלוקבאסטר? רק באמצעות אנליטיקה", אומר רסקין. עוד לפני שנטפליקס התחילה לעסוק בשידור וידאו בסטרימינג דרך האינטרנט, היא הציעה השכרת DVD באמצעות הדואר. אבל רסקין מסביר ששירות המשלוחים לא היה המאפיין שהוביל להצלחה העצומה שלה.
"לבלוקבאסטר הייתה תפיסה שאנשים אוהבים מאוד ללכת לחנות ולבחור DVD. נטפליקס אמרה שהם לא אוהבים לבחור. מה שהם רוצים הוא שהתוצאה תהיה בחירה טובה של סרט", מסביר רסקין.
המערכת האוטומטית של נטפליקס המליצה למנויים איזה סרט כדאי להם לקחת עכשיו. היא התבססה על הסרטים הקודמים שלקח המנוי, על מה שנכתב בעיתונות ועל מידע נוסף שהיא אספה.
"אחוזים גבוהים מאוד היו לוקחים סרט לפי הבחירות של נטפליקס. אנשים לא אהבו ללכת לבחור", אומר רסקין. לאחרונה נטפליקס החליטה לקחת צעד נוסף קדימה את מנוע ההמלצה שלה, והתחילה לשלב את רשימת הסרטים המומלצים בתוך רשימת ה-wish list של הגולשים.
יותר ויותר שירותים מציעים לנו ליהנות מההחלטות האוטומטיות שלהם. ויותר ויותר משתמשים מעוניינים להשתמש בשירותים שכאלה.
"אני למשל לא רוצה להתלבט איזה ביטוח לחדש. הייתי שמח אם זה היה מעובד עבורי, והיו אומרים לי ללכת על ביטוח מסוים", אומר רסקין.
חשבו על יישום מחשב שבודק את כל פוליסות הביטוח הקיימות בשוק ומציע לכם את זאת המתאימה ביותר לצרכים שלכם. אם יכולתם לבטוח בו, האם לא הייתם משלמים עבור שירות שכזה?
רסקין מאמין שרמת הביטחון שלנו במידע ובמחשבים המנתחים אותו תלך ותגבר עם התקדמות הטכנולוגיה, ונראה יותר ויותר יישומים המקבלים החלטות בשבילנו.
ביג דאטה להמונים
הרשת החברתית פייסבוק מכילה כמויות עצומות של מידע בעל ערך שמאוחסן בחוות השרתים שלה. רובו מחכה שם מבלי שנעשה בו שימוש יומיומי. פייסבוק אמנם עושה שימוש בחלק מהמידע הזה כדי להתאים לנו מודעות פרסומת, אבל לא הרבה מעבר לזה.
לאחרונה פייסבוק התחילה לאפשר למשתמשים שלה ליהנות מהמידע הזה כשהיא השיקה את ה-Graph Search. בינתיים השירות עדיין לא פתוח למשתמשים בישראל, פרט לכאלה שביקשו מראש להצטרף לגרסת הבטא.
הגראף סרץ' מאפשר לנו להפעיל חישוב ביג דאטה עוצמתי, חישוב מהסוג שעד לפני כמה חודשים רק מנתחי מידע ומנכ"לים יכלו להרשות לעצמם, מהמחשב הביתי שלנו.
בעזרת הגראף סרץ' אנחנו יכולים לבקש מפייסבוק כל מיני בקשות מעניינות על מידע שנמצא ברשת החברתית בעזרת אנגלית פשוטה. אנחנו יכולים למשל לחפש תמונות של חברים שלנו שצולמו לפני 1990, או לבקש מפייסבוק להראות לנו את כל התמונות שעשינו להם "לייק".
אנחנו יכולים לחפש את כל החברים של החברים שלנו שעובדים בפייסבוק, כדי לשאול אותם איך זה לעבוד שם. אנחנו יכולים לחפש אנשים דוברי עברית שגרים בסאול. אם אתם מחפשים לאן לצאת, תוכלו לבקש מפייסבוק לספר לכם אילו מסעדות חברים שלכם אהבו בתל אביב.
בקרוב גם ניתן יהיה לחפש בסטטוסים של אנשים. כך שנוכל לבקש מפייסבוק להראות לנו את כל החברים שדיברו לאחרונה על איזו עיר שאנחנו עומדים לנסוע אליה לחופשה, או את כל הסטטוסים של חברים של חברים שלכם שמזכירים מנייה שאתם מתעניינים בה, או מצלמה שאתם שוקלים לרכוש.
ליאת משיח, מהנדסת תוכנה בפייסבוק שהשתתפה בפיתוח של הגראף סרץ', הסבירה בכנס ביג דאטה 2013 של "מידע כנסים" שהתקיים בחודש שעבר כיצד זה עובד. אתם מקלידים את השאלה בדפדפן שלכם. שרת של פייסבוק מפענח אותה ומתרגם אותה לשפה מיוחדת שפיתחו בפייסבוק לצורך החיפוש הזה. את עבודת החיפוש הוא מפרק לגורמים, ומחלק את העבודה למספר גדול של מחשבים. המחשבים מחזירים את התשובות שלהם למחשב ששלח את הבקשה, שבתורו מחזיר לנו את מה שביקשנו לדפדפן. כל זה קורה בן רגע.
לאחרונה התפרסם שפייסבוק מפתחת מנגנוני בינה מלאכותית שיוכלו להבין טוב יותר את המשמעות של הסטטוסים של האנשים בפייסבוק, וגם את התמונות שאנשים מפרסמים. כך שהתובנות שניתן יהיה להפיק מהמידע האצור בפייסבוק רק ילכו ויעמיקו.
למעשה, גם האופן שבו מקבלים החלטות בפייסבוק מבוסס ביג דאטה. משיח סיפרה בראיון לאפוק טיימס שלעתים קרובות עובדי הפיתוח לא מקבלים הוראות מהבוס.
הם לוקחים לעצמם משימה מתוך רשימת המשימות, משימה שהם חושבים שתהיה לה ההשפעה המשמעותית ביותר על פייסבוק, ומתחילים לבצע אותה. את הפיצ'ר החדש שפותח מנסים בהתחלה על מספר מוגבל של אנשים – בהתחלה על עובדי פייסבוק, לאחר מכן על אזור מסוים. אם ההשפעה חיובית, כלומר, אם הפיצ'ר החדש מגדיל את השימוש של אנשים ברשת החברתית, הוא ישוחרר בהדרגה לציבור הרחב. לא צריך את מארק צוקרברג או מנהל כזה או אחר שיחליט עם הפיצ'ר החדש "מגניב" או לא. פשוט מנסים אותו בשטח ורואים מה קורה.
מחפשים חוקיות בתוך ים של נתונים
כמו פייסבוק, כל עסק רוצה להפיק תובנות עסקיות מהמידע שהוא אוסף. ארגונים רבים רוצים ללמוד את החוקיות ואת התבניות מתוך הים הענק של הנתונים שהם אוספים. אחד מהפתרונות המאפשר לעשות זאת נקרא Teradata Aster, והוא מיוצג בארץ על ידי י. א. מיטווך. טל נועם, מנהל חטיבת ה-Data Warehouses במיטווך סיפר לאפוק טיימס על כמה דוגמאות לשימושים כאלה.
נועם מתאר לדוגמה בנק שמעוניין לזהות תבניות של נטישת לקוחות. לצורך כך הוא יכול לחבר את הנתונים על הפעילות הבנקאית של הלקוח, עם מאגר הנתונים של מרכז שירות הלקוחות הטלפוני, עם מאגר הנתונים על השירות שקיבל הלקוח בבנק, ועם אתר האינטרנט של הבנק. חלק ממרכזי שירות הלקוחות הטלפוניים, אגב, מצויידים במערכת של המרת השיחה הקולית למלל כתוב בזמן אמת, כך שניתן לבצע ניתוח על נתוני השיחה. אחרים מצוידים במערכות לזיהוי גוון הקול של הלקוח, שמאפשרות למשל לזהות בזמן אמת לקוח עצבני.
מערכת Teradata Aster מאפשרת לאתר את הנתיבים המובילים לקוחות לנטוש את הבנק, כלומר, רצף של אירועים שבאים בזה אחר זה שמסתיימים בעזיבת הלקוח.
מפעילות סלולר יכולות לחפש את הנתיב המוביל לשידרוג מכשיר סלולר. כך יכולים נציגי הטלמרקטינג להתמקד בלקוחות בעלי סיכויים גבוהים לשדרג את מכשיר הסלולר שלהם, ולא לבזבז את זמנם על כאלה שעל בסיס תבנית השימוש שלהם לא סביר שישדרגו את המכשיר.
נועם מסביר כי חברות סלולר באירופה משתמשות במערכות האלה גם כדי להבין את הקשרים החברתיים של המשתמשים שלהן. באמצעות ניתוח אוטומטי של שיחות הטלפון ושליחת המסרונים ניתן לנתח את הקשרים בין הלקוחות השונים. ניתן לנתח את תדירות השיחות, השעות שבהן הן מתבצעות, באילו שעות נשלחים מסרונים בין המנויים, וכך להבין את טיב הקשר. מעבר לכך, המערכת מנסה להעריך את רמת ההשפעה בין המנויים. האם זה קשר קרוב? האם יש למנוי א' השפעה על מנוי ב'?
כך יכולה החברה להבחין בתבניות נוספות. למשל, לקוח ששלושה מהאנשים המשפיעים עליו עזבו את החברה, עשוי לנטוש גם הוא בקרוב. אם שלושתם עזבו לאותו מפעיל, הסיכוי שלו לעזוב אפילו גבוה יותר. או מצד שני, אם שלושה מהאנשים הקרובים אלי שידרגו למכשיר האייפון החדש, הסיכוי שלי לשדרג עשויים גם כן להיות גבוהים יותר.
באמצעות חיבור בין מקורות נתונים שונים חברות מנסות לבנות פרופילים כמה שיותר מקיפים על כל לקוח. אפשר לחבר את נתוני המיקום שנשלחים מהמכשיר הסלולרי שלנו עם המידע מהרשת החברתית, עם נתוני הרכישות האחרונות שלנו, ועם מידע על הרכישות של חבריך הקרובים. זה כמובן אם נתַנו לחברה את אישורנו לכך. שירותים בארצות הברית למשל מאפשרים לקבל הנחות ומבצעים המבוססים על המיקום שלך במסרונים, לאלה הבוחרים להצטרף לשירות. החברה יכולה אפילו ללמוד על הרגלי הצריכה שלנו אם נאפשר לה לחבר את המידע מחברת האשראי.
אם למשל אתם אוהבים לקנות את הקפה שלך בשעה 10 בבוקר, אפשר להציע לכם קופון לקפה ומאפה בבית הקפה הקרוב למקום שבו אתם נמצא הבוקר. אם בכל ערב אתה עובר ברחוב אבן גבירול בדרך הביתה, אפשר להציע לך מבעוד מועד הנחה מיוחדת לקראת יום ההולדת של אשתך בחנות הפרחים שבאבן גבירול.
לא משנה לאיזה שימוש, חברות מבינות היום יותר ויותר כמה יקר ערך הוא המידע. כל מידע. חברות עוברות מיזוגים ורכישות לעתים רק בשביל לשלב את המידע ממאגר הלקוחות שלהן.
בסרטו של שפילברג "דו"ח מיוחד" מ-2002 מופיעים שלטי חוצות אלקטרוניים המזהים את העוברים והשבים באמצעות זיהוי פנים ומציגים להם פרסומות מותאמות אישית. טכנולוגיה כזאת למעשה כבר נמצאת בפיתוח כיום, באמצעות שימוש בביג דאטה. אבל הביג דאטה עשוי לאפשר להגשים תחזית מוזרה קצת יותר מתוך הסרט.
טום קרוז מגלם בסרט את מפקדהּ של יחידה מיוחדת לזיהוי פשעים מבעוד מועד. באמצעות הטכנולוגיה החדשנית מזהה היחידה פושעים שעומדים לבצע פשעים קשים, ועוצרת אותם לפני שהספיקו לבצע את הפשע. באמצעות הביג דאטה, גם התרחיש הזה עשוי להתגשם. חוקרים בארצות הברית עובדים כיום על שיפורו של אלגוריתם, שכבר נמצא בשימוש ניסיוני בכמה ערים, המחשב מה הסיכוי של אדם לבצע פשע באמצעות מגוון רחב של נתונים.
ביג דאטה – מהיר, גדול ומגוון
כשמדברים על ביג דאטה מתכוונים לכמות עצומה של נתונים, בדרך כלל מסוגים מגוונים רבים, שמגיע בדרך כלל במהירויות גבוהות או דורש טיפול מהיר. בעגה המקצועי מכנים את זה לעתים 3V (Volume, Velocity, Variety).
בתחום הפיננססים למשל, להצליח לקבל ההחלטה הנכונה בזמן הנכון זה קריטי. גם בתחום השיווק יכולה להיות למהירות השפעה מכרעת. גלעד שיינר ממלנוקס מספר כיצד באמצעות שימוש בטכנולוגיות של מלנוקס הצליחה רשת סופרמרקטים לקצר תהליך שארך שבועיים לשלוש שעות בלבד.
כמו רשתות סופרמרקטים רבות, גם הרשת הזאת אוספת כל נתון שהיא יכולה לאסוף על הרכישות של הלקוחות שלה. הנתונים נשלחים בסוף כל יום עבודה בשעה שלוש לפנות בוקר למרכז המידע, ובשעה שש בבוקר סניף הסופרמרקט כבר מקבל דו"ח מפורט המסביר מה עליו לעשות כדי להגדיל המכירות: אילו מבצעים עליו להציג באותו יום, אילו מוצרים להזיז לאילו מדפים, מאיזה מוצרים עליו להגדיל את המלאי, ולאילו מוצרים לשנות את המחיר.
דוגמה נוספת שבה ניתוח בזמן אמת הוא קריטי היא איתור הונאות. שיינר מסביר כי באמצעות פייפל מתבצעים בכל יום 13 מיליון תשלומים. באמצעות שימוש בפתרונות ביג דאטה מצליחים בפייפל לנטר בזמן אמת את כל המידע ולזהות הונאות בזמן אמת.
במקרים רבים יש צורך לעשות ניתוח למגוון רחב של סוגי נתונים המגיעים בפורמטים שונים. במאגרי מידע מסורתיים הנתונים מאורגנים בתוך מבנה נתונים מסודר שהוגדר מראש. המבנה הזה מוגדר מראש על בסיס פעולות אנחנו יודעים שנרצה לבצע על המידע שלנו. לכן, לעתים קרובות נתקשה לבצע פעולות שלא תכננו מראש לבצע.
הגישה בעולם הביג דאטה היא לשמור את המידע בפורמט הגולמי שלו. הסיבה היא שאין לנו דרך לדעת מראש מה כל הפעולות שנרצה לבצע עם המידע שלנו, ומכיוון שכמות הנתונים עצומה, והמשאבים שיידרשו כדי לעבד אותה למאגרי מידע מובְנים הם אדירים. השאיפה היא לאסוף כמה שיותר נתונים, מכמה שיותר סוגים, ולאחר מכן להשתמש בגישות שונות כדי להפיק ממנו כמה שיותר תועלת. הסוג החדש הזה של מאגר המידע הבלתי-מובנה מכונה לעתים קרובות Data Lake.
כשהמידע לא מסודר בטבלאות מאורגנות ומובְנות הסקת המסקנות נעשית מורכבת יותר. במסד נתונים מסורתי אפשר לכתוב בפשטות שאילתות ב-SQL, שפה שאפשר ללמוד בקלות רבה, ומרבית האנליסטים שולטים בה. אבל כשהמידע איננו מובנה, יש צורך בתכנות, בכתיבת שורות קוד מסובכות, דבר שכמות האנשים המסוגלת לבצע מוגבלת יותר. בנוסף, כדי להצליח להתמודד עם משאבי המחשוב הנדרשים, יש צורך להשתמש במה שמכונה "תכנות מבוזר", כלומר, לכתוב קוד שיחלק את העבודה בין מספר גדול של מחשבים, מה שהופך את העניין למורכב עוד יותר.
עוד כתבות של בן קמינסקי
-
1.
מדע וטכנולוגיה
ערעור – מה שכולם רוצים לעשות
-
2.
מדע וטכנולוגיה
רובוטים שיורים מהמותן – תיבת פנדורה או החלטה חכמה?
-
3.
מדע וטכנולוגיה
האם להשתמש בתוכנה שיודעת לגלות מי יבצע בעתיד פשע, עוד לפני שביצע אותו?
-
4.
מדע וטכנולוגיה
הגאון שמעביר את הכוח להמונים
-
5.
מדע וטכנולוגיה
היום שבו יפלו חומות הצנזורה בסין ואיראן
עוד כתבות במדע וטכנולוגיה
-
האם האמונות שלנו לגבי הזדקנות יכולות לקבוע כמה זמן נחיה?
רקפת תבור
-
איך הם מנצחים את המוות? סודות ההחלמה של האנשים שניצלו מסרטן סופני
רקפת תבור
-
"השאלה החשובה הנשאלת כעת היא כמה זמן ייקח לאנשים להתרגל לרעיון של כלים מעופפים?"
רקפת תבור
-
האם מצב הצבירה הרביעי ביקום הוא בעצם יצור חי?
רקפת תבור
-
שליחות קטלנית זה כאן
רקפת תבור
ה"ביג דאטה" יחליט בשבילנו
פייסבוק חיים את זה, בנקים משתמשים בזה כדי לחזות נטישה של לקוחות, והמשטרה תיעזר בזה כדי לזהות מי עומד לבצע פשע. מהפכת ה"ביג דאטה" כבר כאן
בן קמינסקי | 10 בנובמבר 2013 | מדע וטכנולוגיה | 4 דק׳
המכתב המיוחל מהאוניברסיטה הגיע סוף סוף. המועמד הנרגש קורע את המעטפה במהירות, ושולף את התדפיס. "התקבלתי או לא התקבלתי?" הוא שואל את עצמו. אבל התשובה שהוא מקבל קצת יותר מורכבת: "על בסיס הרקע האישי שלך, המערכת שלנו מעריכה שיסיכויי הנשירה שלך במסלול הלימודים 'היסטוריה של ימי הביניים' גבוהים במיוחד. תחת זאת אנו ממליצים לך לשקול את אחד מהמסלולים הבאים: בלשנות, וטרינריה או מנהל עסקים שבהם סיכויי ההצלחה שלך גבוהים באופן משמעותי".
"אבל איך זה יכול להיות?" שואל את עצמו המועמד ללימודים באוניברסיטה, "ממוצע הבגרויות שלי הוא 98, וקיבלתי 724 בפסיכומטרי". זה אולי נכון. אבל הוא לא לקח בחשבון את מה שיודע רק המחשב: 50 אחוז מהתלמידים שהצטיינו בלימודי פיזיקה אבל לא בלימודי לשון, שאמם עורכת דין ושאביהם יליד ארצות הברית – נשרו מתוכנית הלימודים שחשק בה המועמד.
זה אמנם תסריט בידיוני. אבל זו גם מציאות שמתחילה לקרום עור וגידים. מערכות מתקדמות באוניברסיטאות בעולם מבצעות ניתוחים מורכבים על כמויות מידע אדירות כדי לבחון תבניות ולנבא את סיכויי ההצלחה והנשירה של סטודנטים במוסדות להשכלה גבוהה. מחלקות ייעוץ באוניברסיטאות מתחילות להיעזר בכלים שכאלה כדי להכווין את התלמידים. מערכת אחרת שעוררה סערה מנבאת את סיכויי הנשירה מלימודי התיכון של תלמידים בכיתה א'.
העולם אוגר יותר ויותר מידע, והמחשבים יותר ויותר מסוגלים לנתח את המידע הזה, להסיק ממנו מסקנות, ולעשות בשבילינו את הבחירות שלנו. כדי להיות מסוגלים להפיק תועלת מכמות המידע האדירה הזאת נדרשות גישות עבודה חדשות וטכנולוגיות חדשות. התחום המתפתח הזה, המכונה Big Data, צפוי לשנות את הכלכלה ואת החיים שלנו במגוון רחב מאוד של דרכים.
במה תחלה בעוד 20 שנה
"אנחנו מייצרים המון המון דאטה. אנחנו מייצרים דאטה יותר ממה שאנחנו יכולים לצרוך אותו", אומר בראיון לאפוק טיימס גלעד שיינר, סמנכ"ל שיווק במלאנוקס, שהטכנולוגיה שפיתחה משמשת חברות רבות בעולם לפתרונות ביג דאטה. "ככל שאתה מייצר יותר דאטה, כך יש לך הרבה יותר דברים שאתה יכול ללמוד מתוך הדאטה הזה".
שימושים עסקיים לביג דאטה יש בשפע. נגיע גם אליהם עוד מעט. אבל שיינר מפנה את תשומת הלב דווקא לתחום אחר שמתפתח בעולם הביג דאטה – רפואה. שיינר מסביר כי כיום יש דרישה מהרופאים להעלות את כל המידע למחשב. שילוב של מידע שנאסף מכל העולם יכול להביא לתובנות שמחקרי רפואה מסורתיים לא יכלו להגיע אליהן.
"אם אתה מתחיל להסתכל על כל הדאטה שנאסף לגבי בדיקות רפואיות שאנשים עושים, ואתה מתחיל לעשות חתך לאורך שנים, אתה יכול להסתכל על מגמות שקורות", הוא מסביר. "אם אני יכול להסתכל על המצב הרפואי שלך, על ההתקדמות הרפואית שלך, ואני יכול להסתכל על כל המקרים שקרו בעולם, אני יכול לשערך כבר מעכשיו במה אתה הולך לחלות בעוד כמה שנים קדימה".
שיינר מסביר שחיזויים שכאלה על בסיס ביג דאטה יוכלו לאפשר טיפול מונע עוד לפני שמתפרצת המחלה. "ככל שנמשיך לייצר יותר ויותר מידע, כך יהיו שימושים רבים נוספים לדברים האלה", אומר שיינר.
יש שימוש נוסף שמתבטא כבר כיום. אנחנו רק לא יודעים בהכרח לזקוף אותו לזכות הביג דאטה.
"לגופי ביטחון יש אפשרות לעשות ניתוח מאוד מאוד מהיר של תמונות וסרטים שאנשים מצלמים כדי לחקור אירועים בצורה מאוד מהירה", מסביר שיינר. באמצעות כלים לזיהוי פנים, למשל, ניתן לאתר במהירות חשודים מזירת האירוע.
שילוב של תצלומים ממצלמות אבטחה ותצלומים שצילמו אנשים במכשירים הסלולריים שלהם, נתונים ממשלתיים, נתונים מהרשתות החברתיות, יחד עם אמצעי מחשוב מהירים ועוצמתיים, יכול להפיק בהרף עין מסקנות שהיו דורשות פעם צוות בלשים עצום ושבועות של עבודה.
במקורות זרים התפרסם לאחרונה שיחידת 8200 הישראלית הצליחה לאתר הקלטות של בכירים במשטר אסד המוכיחות את מעורבות המשטר בהתקפה הכימית. איתמר בן-חמו, מנכ"ל חברת Vision.bi המספקת פתרונות בינה עסקית באמצעות ביג דאטה, מסביר שככל הנראה זוהי דוגמה נוספת לשימוש בביג דאטה.
בן-חמו מסביר כי גופי ביטחון ומודיעין מאחסנים כמויות אדירות של הקלטות במאגרי מידע עצומים ומבצעים עליהם ניתוח אוטומטי. טכנולוגיה שנמצאת בשימוש בגופים שכאלה מסוגלת להמיר בזמן אמת את ההקלטות למלל כתוב, ולבצע ניתוח מיידי של מספר עצום של שיחות טלפון.
בין אם מדובר בשיחות טלפון מוקלטות, תמונות וסרטונים, מידע רפואי, סטטוסים ברשתות החברתיות, בתיעוד נתוני הגלישה באתר איטרנט או נתוני מכירות, או מאגרי מידע ממשלתיים – פתרונות של ביג דאטה שואפים להצליח לחבר ביניהם ולהסיק מהם מסקנות במהירות. אלה מסקנות שעד לאחרונה לא ניתן היה להסיק, או שהיה נדרש כמות ומשאבים אדירים כדי להגיע אליהן. פתרונות הביג דאטה מבזרים את העבודה המורכבת למספר גדול של מחשבים. המחשבים מבצעים את חלקם, ומחזירים את התשובה למחשב המרכזי, שמארגן ביחד את כל הנתונים ומציג את המסקנות.
המחשב יבחר בשבילך
אמיר רסקין עובד בתחום המידע כבר מ-1985. היום הוא יועץ ראשי בחברת B-Pro המציעה פתרונות ניהול משולבי טכנולוגיה, כולל פתרונות ביג דאטה. הוא מסביר בראיון לאפוק טיימס שבמקרים רבים אנשים לא אוהבים לבחור. אנחנו מעדיפים שיבחרו בשבילינו.
"איך נטפליקס הרגה את בלוקבאסטר? רק באמצעות אנליטיקה", אומר רסקין. עוד לפני שנטפליקס התחילה לעסוק בשידור וידאו בסטרימינג דרך האינטרנט, היא הציעה השכרת DVD באמצעות הדואר. אבל רסקין מסביר ששירות המשלוחים לא היה המאפיין שהוביל להצלחה העצומה שלה.
"לבלוקבאסטר הייתה תפיסה שאנשים אוהבים מאוד ללכת לחנות ולבחור DVD. נטפליקס אמרה שהם לא אוהבים לבחור. מה שהם רוצים הוא שהתוצאה תהיה בחירה טובה של סרט", מסביר רסקין.
המערכת האוטומטית של נטפליקס המליצה למנויים איזה סרט כדאי להם לקחת עכשיו. היא התבססה על הסרטים הקודמים שלקח המנוי, על מה שנכתב בעיתונות ועל מידע נוסף שהיא אספה.
"אחוזים גבוהים מאוד היו לוקחים סרט לפי הבחירות של נטפליקס. אנשים לא אהבו ללכת לבחור", אומר רסקין. לאחרונה נטפליקס החליטה לקחת צעד נוסף קדימה את מנוע ההמלצה שלה, והתחילה לשלב את רשימת הסרטים המומלצים בתוך רשימת ה-wish list של הגולשים.
יותר ויותר שירותים מציעים לנו ליהנות מההחלטות האוטומטיות שלהם. ויותר ויותר משתמשים מעוניינים להשתמש בשירותים שכאלה.
"אני למשל לא רוצה להתלבט איזה ביטוח לחדש. הייתי שמח אם זה היה מעובד עבורי, והיו אומרים לי ללכת על ביטוח מסוים", אומר רסקין.
חשבו על יישום מחשב שבודק את כל פוליסות הביטוח הקיימות בשוק ומציע לכם את זאת המתאימה ביותר לצרכים שלכם. אם יכולתם לבטוח בו, האם לא הייתם משלמים עבור שירות שכזה?
רסקין מאמין שרמת הביטחון שלנו במידע ובמחשבים המנתחים אותו תלך ותגבר עם התקדמות הטכנולוגיה, ונראה יותר ויותר יישומים המקבלים החלטות בשבילנו.
ביג דאטה להמונים
הרשת החברתית פייסבוק מכילה כמויות עצומות של מידע בעל ערך שמאוחסן בחוות השרתים שלה. רובו מחכה שם מבלי שנעשה בו שימוש יומיומי. פייסבוק אמנם עושה שימוש בחלק מהמידע הזה כדי להתאים לנו מודעות פרסומת, אבל לא הרבה מעבר לזה.
לאחרונה פייסבוק התחילה לאפשר למשתמשים שלה ליהנות מהמידע הזה כשהיא השיקה את ה-Graph Search. בינתיים השירות עדיין לא פתוח למשתמשים בישראל, פרט לכאלה שביקשו מראש להצטרף לגרסת הבטא.
הגראף סרץ' מאפשר לנו להפעיל חישוב ביג דאטה עוצמתי, חישוב מהסוג שעד לפני כמה חודשים רק מנתחי מידע ומנכ"לים יכלו להרשות לעצמם, מהמחשב הביתי שלנו.
בעזרת הגראף סרץ' אנחנו יכולים לבקש מפייסבוק כל מיני בקשות מעניינות על מידע שנמצא ברשת החברתית בעזרת אנגלית פשוטה. אנחנו יכולים למשל לחפש תמונות של חברים שלנו שצולמו לפני 1990, או לבקש מפייסבוק להראות לנו את כל התמונות שעשינו להם "לייק".
אנחנו יכולים לחפש את כל החברים של החברים שלנו שעובדים בפייסבוק, כדי לשאול אותם איך זה לעבוד שם. אנחנו יכולים לחפש אנשים דוברי עברית שגרים בסאול. אם אתם מחפשים לאן לצאת, תוכלו לבקש מפייסבוק לספר לכם אילו מסעדות חברים שלכם אהבו בתל אביב.
בקרוב גם ניתן יהיה לחפש בסטטוסים של אנשים. כך שנוכל לבקש מפייסבוק להראות לנו את כל החברים שדיברו לאחרונה על איזו עיר שאנחנו עומדים לנסוע אליה לחופשה, או את כל הסטטוסים של חברים של חברים שלכם שמזכירים מנייה שאתם מתעניינים בה, או מצלמה שאתם שוקלים לרכוש.
ליאת משיח, מהנדסת תוכנה בפייסבוק שהשתתפה בפיתוח של הגראף סרץ', הסבירה בכנס ביג דאטה 2013 של "מידע כנסים" שהתקיים בחודש שעבר כיצד זה עובד. אתם מקלידים את השאלה בדפדפן שלכם. שרת של פייסבוק מפענח אותה ומתרגם אותה לשפה מיוחדת שפיתחו בפייסבוק לצורך החיפוש הזה. את עבודת החיפוש הוא מפרק לגורמים, ומחלק את העבודה למספר גדול של מחשבים. המחשבים מחזירים את התשובות שלהם למחשב ששלח את הבקשה, שבתורו מחזיר לנו את מה שביקשנו לדפדפן. כל זה קורה בן רגע.
לאחרונה התפרסם שפייסבוק מפתחת מנגנוני בינה מלאכותית שיוכלו להבין טוב יותר את המשמעות של הסטטוסים של האנשים בפייסבוק, וגם את התמונות שאנשים מפרסמים. כך שהתובנות שניתן יהיה להפיק מהמידע האצור בפייסבוק רק ילכו ויעמיקו.
למעשה, גם האופן שבו מקבלים החלטות בפייסבוק מבוסס ביג דאטה. משיח סיפרה בראיון לאפוק טיימס שלעתים קרובות עובדי הפיתוח לא מקבלים הוראות מהבוס.
הם לוקחים לעצמם משימה מתוך רשימת המשימות, משימה שהם חושבים שתהיה לה ההשפעה המשמעותית ביותר על פייסבוק, ומתחילים לבצע אותה. את הפיצ'ר החדש שפותח מנסים בהתחלה על מספר מוגבל של אנשים – בהתחלה על עובדי פייסבוק, לאחר מכן על אזור מסוים. אם ההשפעה חיובית, כלומר, אם הפיצ'ר החדש מגדיל את השימוש של אנשים ברשת החברתית, הוא ישוחרר בהדרגה לציבור הרחב. לא צריך את מארק צוקרברג או מנהל כזה או אחר שיחליט עם הפיצ'ר החדש "מגניב" או לא. פשוט מנסים אותו בשטח ורואים מה קורה.
מחפשים חוקיות בתוך ים של נתונים
כמו פייסבוק, כל עסק רוצה להפיק תובנות עסקיות מהמידע שהוא אוסף. ארגונים רבים רוצים ללמוד את החוקיות ואת התבניות מתוך הים הענק של הנתונים שהם אוספים. אחד מהפתרונות המאפשר לעשות זאת נקרא Teradata Aster, והוא מיוצג בארץ על ידי י. א. מיטווך. טל נועם, מנהל חטיבת ה-Data Warehouses במיטווך סיפר לאפוק טיימס על כמה דוגמאות לשימושים כאלה.
נועם מתאר לדוגמה בנק שמעוניין לזהות תבניות של נטישת לקוחות. לצורך כך הוא יכול לחבר את הנתונים על הפעילות הבנקאית של הלקוח, עם מאגר הנתונים של מרכז שירות הלקוחות הטלפוני, עם מאגר הנתונים על השירות שקיבל הלקוח בבנק, ועם אתר האינטרנט של הבנק. חלק ממרכזי שירות הלקוחות הטלפוניים, אגב, מצויידים במערכת של המרת השיחה הקולית למלל כתוב בזמן אמת, כך שניתן לבצע ניתוח על נתוני השיחה. אחרים מצוידים במערכות לזיהוי גוון הקול של הלקוח, שמאפשרות למשל לזהות בזמן אמת לקוח עצבני.
מערכת Teradata Aster מאפשרת לאתר את הנתיבים המובילים לקוחות לנטוש את הבנק, כלומר, רצף של אירועים שבאים בזה אחר זה שמסתיימים בעזיבת הלקוח.
מפעילות סלולר יכולות לחפש את הנתיב המוביל לשידרוג מכשיר סלולר. כך יכולים נציגי הטלמרקטינג להתמקד בלקוחות בעלי סיכויים גבוהים לשדרג את מכשיר הסלולר שלהם, ולא לבזבז את זמנם על כאלה שעל בסיס תבנית השימוש שלהם לא סביר שישדרגו את המכשיר.
נועם מסביר כי חברות סלולר באירופה משתמשות במערכות האלה גם כדי להבין את הקשרים החברתיים של המשתמשים שלהן. באמצעות ניתוח אוטומטי של שיחות הטלפון ושליחת המסרונים ניתן לנתח את הקשרים בין הלקוחות השונים. ניתן לנתח את תדירות השיחות, השעות שבהן הן מתבצעות, באילו שעות נשלחים מסרונים בין המנויים, וכך להבין את טיב הקשר. מעבר לכך, המערכת מנסה להעריך את רמת ההשפעה בין המנויים. האם זה קשר קרוב? האם יש למנוי א' השפעה על מנוי ב'?
כך יכולה החברה להבחין בתבניות נוספות. למשל, לקוח ששלושה מהאנשים המשפיעים עליו עזבו את החברה, עשוי לנטוש גם הוא בקרוב. אם שלושתם עזבו לאותו מפעיל, הסיכוי שלו לעזוב אפילו גבוה יותר. או מצד שני, אם שלושה מהאנשים הקרובים אלי שידרגו למכשיר האייפון החדש, הסיכוי שלי לשדרג עשויים גם כן להיות גבוהים יותר.
באמצעות חיבור בין מקורות נתונים שונים חברות מנסות לבנות פרופילים כמה שיותר מקיפים על כל לקוח. אפשר לחבר את נתוני המיקום שנשלחים מהמכשיר הסלולרי שלנו עם המידע מהרשת החברתית, עם נתוני הרכישות האחרונות שלנו, ועם מידע על הרכישות של חבריך הקרובים. זה כמובן אם נתַנו לחברה את אישורנו לכך. שירותים בארצות הברית למשל מאפשרים לקבל הנחות ומבצעים המבוססים על המיקום שלך במסרונים, לאלה הבוחרים להצטרף לשירות. החברה יכולה אפילו ללמוד על הרגלי הצריכה שלנו אם נאפשר לה לחבר את המידע מחברת האשראי.
אם למשל אתם אוהבים לקנות את הקפה שלך בשעה 10 בבוקר, אפשר להציע לכם קופון לקפה ומאפה בבית הקפה הקרוב למקום שבו אתם נמצא הבוקר. אם בכל ערב אתה עובר ברחוב אבן גבירול בדרך הביתה, אפשר להציע לך מבעוד מועד הנחה מיוחדת לקראת יום ההולדת של אשתך בחנות הפרחים שבאבן גבירול.
לא משנה לאיזה שימוש, חברות מבינות היום יותר ויותר כמה יקר ערך הוא המידע. כל מידע. חברות עוברות מיזוגים ורכישות לעתים רק בשביל לשלב את המידע ממאגר הלקוחות שלהן.
בסרטו של שפילברג "דו"ח מיוחד" מ-2002 מופיעים שלטי חוצות אלקטרוניים המזהים את העוברים והשבים באמצעות זיהוי פנים ומציגים להם פרסומות מותאמות אישית. טכנולוגיה כזאת למעשה כבר נמצאת בפיתוח כיום, באמצעות שימוש בביג דאטה. אבל הביג דאטה עשוי לאפשר להגשים תחזית מוזרה קצת יותר מתוך הסרט.
טום קרוז מגלם בסרט את מפקדהּ של יחידה מיוחדת לזיהוי פשעים מבעוד מועד. באמצעות הטכנולוגיה החדשנית מזהה היחידה פושעים שעומדים לבצע פשעים קשים, ועוצרת אותם לפני שהספיקו לבצע את הפשע. באמצעות הביג דאטה, גם התרחיש הזה עשוי להתגשם. חוקרים בארצות הברית עובדים כיום על שיפורו של אלגוריתם, שכבר נמצא בשימוש ניסיוני בכמה ערים, המחשב מה הסיכוי של אדם לבצע פשע באמצעות מגוון רחב של נתונים.
ביג דאטה – מהיר, גדול ומגוון
כשמדברים על ביג דאטה מתכוונים לכמות עצומה של נתונים, בדרך כלל מסוגים מגוונים רבים, שמגיע בדרך כלל במהירויות גבוהות או דורש טיפול מהיר. בעגה המקצועי מכנים את זה לעתים 3V (Volume, Velocity, Variety).
בתחום הפיננססים למשל, להצליח לקבל ההחלטה הנכונה בזמן הנכון זה קריטי. גם בתחום השיווק יכולה להיות למהירות השפעה מכרעת. גלעד שיינר ממלנוקס מספר כיצד באמצעות שימוש בטכנולוגיות של מלנוקס הצליחה רשת סופרמרקטים לקצר תהליך שארך שבועיים לשלוש שעות בלבד.
כמו רשתות סופרמרקטים רבות, גם הרשת הזאת אוספת כל נתון שהיא יכולה לאסוף על הרכישות של הלקוחות שלה. הנתונים נשלחים בסוף כל יום עבודה בשעה שלוש לפנות בוקר למרכז המידע, ובשעה שש בבוקר סניף הסופרמרקט כבר מקבל דו"ח מפורט המסביר מה עליו לעשות כדי להגדיל המכירות: אילו מבצעים עליו להציג באותו יום, אילו מוצרים להזיז לאילו מדפים, מאיזה מוצרים עליו להגדיל את המלאי, ולאילו מוצרים לשנות את המחיר.
דוגמה נוספת שבה ניתוח בזמן אמת הוא קריטי היא איתור הונאות. שיינר מסביר כי באמצעות פייפל מתבצעים בכל יום 13 מיליון תשלומים. באמצעות שימוש בפתרונות ביג דאטה מצליחים בפייפל לנטר בזמן אמת את כל המידע ולזהות הונאות בזמן אמת.
במקרים רבים יש צורך לעשות ניתוח למגוון רחב של סוגי נתונים המגיעים בפורמטים שונים. במאגרי מידע מסורתיים הנתונים מאורגנים בתוך מבנה נתונים מסודר שהוגדר מראש. המבנה הזה מוגדר מראש על בסיס פעולות אנחנו יודעים שנרצה לבצע על המידע שלנו. לכן, לעתים קרובות נתקשה לבצע פעולות שלא תכננו מראש לבצע.
הגישה בעולם הביג דאטה היא לשמור את המידע בפורמט הגולמי שלו. הסיבה היא שאין לנו דרך לדעת מראש מה כל הפעולות שנרצה לבצע עם המידע שלנו, ומכיוון שכמות הנתונים עצומה, והמשאבים שיידרשו כדי לעבד אותה למאגרי מידע מובְנים הם אדירים. השאיפה היא לאסוף כמה שיותר נתונים, מכמה שיותר סוגים, ולאחר מכן להשתמש בגישות שונות כדי להפיק ממנו כמה שיותר תועלת. הסוג החדש הזה של מאגר המידע הבלתי-מובנה מכונה לעתים קרובות Data Lake.
כשהמידע לא מסודר בטבלאות מאורגנות ומובְנות הסקת המסקנות נעשית מורכבת יותר. במסד נתונים מסורתי אפשר לכתוב בפשטות שאילתות ב-SQL, שפה שאפשר ללמוד בקלות רבה, ומרבית האנליסטים שולטים בה. אבל כשהמידע איננו מובנה, יש צורך בתכנות, בכתיבת שורות קוד מסובכות, דבר שכמות האנשים המסוגלת לבצע מוגבלת יותר. בנוסף, כדי להצליח להתמודד עם משאבי המחשוב הנדרשים, יש צורך להשתמש במה שמכונה "תכנות מבוזר", כלומר, לכתוב קוד שיחלק את העבודה בין מספר גדול של מחשבים, מה שהופך את העניין למורכב עוד יותר.