Big data

Big Data ("בִּיג דָּאטָה", לפי החלטת האקדמיה ללשון העברית: נְתוּנֵי עָתֵק^[1]) הוא מונח המתייחס למאגר מידע הכולל נתונים מבוזרים, שאינם מאורגנים לפי שיטה כלשהי, שמגיעים ממקורות רבים, בכמויות גדולות, בפורמטים מגוונים, ובאיכויות שונות.

ניתן לאפיין נתוני עתק לפי חמישה מאפיינים (חמשת ה-V-ים):

נפח (volume)
מהירות (velocity)
גיוון (variety)
אי-יציבות (volatility)
אי-אמינות (veracity)

האתגר בניהול נתוני עתק הפך תחום זה לעניין מרכזי בטכנולוגיית מידע. מסדי הנתונים היחסיים הקיימים אינם בנויים לאחסון ולניתוח כמויות מידע גדולות שרובן אינן מגיעות באופן מפורמט לפי תבניות אחידות וידועות מראש. העלות הזולה יחסית של אמצעי האחסון, מצד אחד, והכמות הגדולה של מידע המגיע משלל מקורות (אתרי אינטרנט, רשתות חברתיות, מכשירים סלולריים, מצלמות אבטחה, חיישנים ועוד), מצד שני, גורם לכך שמידע נאגר ללא מחיקה, ומאפשר יכולות ניתוח וזיהוי תבניות ומִתְאָמִים, הנדרשות בעולמות תוכן רבים.

ביג דאטה משמש לתיאור היקף מאסיבי של אוסף נתונים מובנה ושאינו מובנה, שגודלו העצום - וקצב עדכונו המהיר, לא היו בנמצא עד לפני זמן קצר.

נדרשות פרדיגמות מתקדמות, השונות מהשיטות המסורתיות, לעיבוד הנתונים וחילוץ המשמעות מהם. האמצעים והתהליכים במערכות הדיגיטליות העדכניות כיום מאפשרים לדלות מידע רלוונטי של נתונים מובנים, מובנים בחלקם או אף לא מובנים. שימוש בכלים וחומרה מחשובית מתאימים לגודל מאגר הנתונים וקצב עדכונו, מאפשרים מיון וסינון הנתונים, ניתוח הנתונים, חילוץ משמעות, זיהוי דפוסים, כדי לקבל תובנות חדשות שלא ניתן היה לרכוש קודם לכן בגלל מגבלות טכנולוגיות של זיכרון ומהירות עיבוד ותקשורת, שהתבטלו למעשה בצל ההתפתחויות הטכנולוגיות בשנים האחרונות. תובנות אלו מיועדות לסייע בידינו ללמוד יותר עלינו ועל העולם בו אנו חיים, ומגדילות מאוד את הפוטנציאל לסייע לחברה לשפר את יעילות ההתנהלות, תוך קבלת החלטות מהירות.

הגדרת המונח

הגדרה מקובלת במחקר של המושג "נתוני עתק" היא זו המנוסחת בערך "big data" במילון אוקספורד: ”נתוני עתק הם גוף נתונים גדול במידה כזו, שעיבודו, ארגונו וניתוחו מעמידים אתגר מיוחד.” (data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges...)^[2]

נהוג לתאר לכל הפחות שלושה היבטים אופייניים^[3] של נתוני העתק: נפח (volume), גיוון (variety) ומהירות (velocity). היבט הנפח מתייחס לעובדה שכפי שניתן להבין, מדובר בכמות עצומה של נתונים, העולה על יכולת התפיסה האנושית. גיוון מתייחס לעובדה שהנתונים נאספים ממקורות שונים והם אינם אחידים. מאפיין המהירות נובע מהיבט עקרוני של מידע דיגיטלי המצטבר בקצב גבוה מאוד.

דוגמאות ליישומים

מחקר מודיעין צבאי ומשטרתי – איסוף והצלבת נתונים משלל מקורות גלויים (הודעות טוויטר, רשומות כניסה ויציאה של משטרת הגבולות, תנועות מכשירים סלולריים ומכשירי GPS ועוד) ומקורות איסוף מידע ייעודיים (חיישנים שונים, מצלמות ועוד) לשם זיהוי תבניות וקשרים, שיכולים להצביע על פשעים עתידיים או לנתח בדיעבד מידע היסטורי, על מנת לאתר פעילות מחשידה שקדמה לאירועי טרור.
מחקר מדעי החברה - בחינה של תהליכים בין אישיים, ארגוניים, או מערכתיים על ידי ניתוח נתונים הנאספים בפלפורמות ממוחשבות המבוססות על התנהגות אנושית ואשר אוגרות ארכיון של התנהגות המשתתפים. נתונים מסוג זה מכונים "עקבות דיגיטליים Digital Traces"^[4] . למשל יש מחקרים המשתמשים בתגובות והתנהגות בפלטפורמת רדיט Redditt לבחון היבטים של דיכאון (דפרסיה)^[5] . מחקרים אחרים משתמשים בנתונים הנצברים במעקב אחרי לקוחות הפונים למערכות שירות לקוחות לבחינת אפקטיביות של תהליכי שירות לקוחות^[6]^[7] כמו כן יש חוקרים שיצרו בסיסי נתונים המבוססים על רדיט לבחינת היבטים שונים של לחץ נפשי^[8]
ביולוגיה – מיפוי גנום, מציאת מתאמים ותבניות לאיתור פגמים גנטיים והשפעה של תרופות. פתרון בעיות הדורשות רמה גבוהה של סימולציה על פני שדה של מאות נתונים, כגון חיזוי של מבני קיפול חלבונים.
מטאורולוגיה – ניבוי מזג אוויר על סמך זרם של אלפי נתונים ממקורות מידע מגוונים (חיישנים קרקעיים ומוטסים, תמונות ווידאו, מדידות, מידע היסטורי וכדומה).
פיזיקה – חישוב מבנים ותהליכים באסטרונומיה והתנהגות חלקיקים במערכות קוונטיות. אחסון וניתוח מיליוני אירועים והתנגשויות במאיצי חלקיקים וגלאי נייטרינו.
מסחר – ניתוח תבניות ומגמות בסחר במניות בבורסה, בפרט בתחום האלגו טריידינג. כריית מידע ממיליוני טרנזקציות כספיות, לשם זיהוי התנהגות צרכנים, תמחור, גבייה וחיוב של צרכני תקשורת, גילוי הונאות וכן שימוש בסטטיסטיקות וכריית מידע לטובת ניבוי אירועים עתידיים.
לוחמת סייבר – גילוי פרצות אבטחה, נהלים, הצפנות, ומאידך - גילוי ניסיונות פריצה ומעקב אחר מקורות התוקפים.
אינדוקס וחיפוש מידע טקסטואלי – חיפוש במיליוני דפי טקסט, ספרים אלקטרוניים, דברי דואר אלקטרוני, מסמכים ארגוניים וכדומה.
ספורט – ניתוח והצלבה של אלפי נתונים, הן נתוני זמן אמת והן נתוני עבר של משחקים, על מנת לסייע למאמן להנחות את קבוצתו, לבצע התאמות ולהתכונן למשחק הבא.^[9]
תעשייה – זיהוי וחיזוי בעיות בפסי ייצור, מנועים, תחנות כוח, כורים גרעיניים וכדומה, על מנת לתקנן בטרם ייגרם נזק כלשהו.

סוגיות

אחסון

עקב דרישת רוב הלקוחות לקבל תשובות מורכבות בזמן אמת או קרוב מאוד לכך, אמצעי האחסון המתקדמים, התומכים בכמויות מידע גדולות, נדרשים לאתגרים של כתיבה ושליפה מהירות מאוד. זאת מבלי לאבד יכולות של גיבוי ושחזור אמינים ואוטומטיים, גילוי ותיקון שגיאות, ביזור המידע על פני מספר אתרים גאוגרפיים, ודחיסת מידע נבונה.

כתיבת מידע

כתיבת המידע צריכה להיעשות בדרך סטנדרטית, שקופה ויעילה, באופן מנותק מהרכיבים יצרני המידע. מידע זורם כל העת מהתקנים רבים, שונים, בקצבים משתנים וללא כל שליטה של צרכן המידע (בעל המאגר) על שום היבט של זרם הנתונים שהוזכר לעיל.

על המאגרים לספק, מחד, תמיכה בתקנים של יצרני מידע מוכרים, ומאידך, גמישות רבה לשינויים ויצירה של מתאמים (adapters) חדשים.

שליפה, ניתוח ומציאת תבניות

האתגר הגדול ביותר הוא ביצוע שליפות מהירות של מידע, הן בדרכים קבועות מראש (שאילתות), אך בעיקר בדרך של זיהוי מהיר של תבניות וקשרים שונים, בלתי ניתנים לחיזוי אנושי מראש, בין מיליוני פיסות מידע מרוחקות בזמן, במקום, בפורמט ובמקור הקליטה שלהן.

לשם זיהוי תבניות ופיתוח מערכות לומדות, מוכנסים לשימוש בתחום אלגוריתמים מתחומי האלגוריתמים האקראיים, האלגוריתמים האבולוציוניים, בינה מלאכותית, בינה עסקית ועוד, שהורחבו והותאמו לעבודה בכמויות ובקצבים הנדרשים.

פרטיות

היקף המידע, מגוון המקורות של המידע והשימושים שנעשים בו מציבים אתגרים בקשר לפרטיות במידע. דיני הגנת הפרטיות הקיימים בתחילת המאה ה-21, בעיק�� באיחוד האירופי, מבוססים ומותאמים לסוגיות של מאגרי מידע מקומיים, קטנים יותר בהיקפם, שהוקמו למטרה מסוימת. נתוני עתק לא בהכרח מותאמים לכללים אלה.

דוגמאות לפתרונות

הפתרונות בתחום מגיעים מחברות מובילות ממספר תחומים:

בתחום האחסון הדיגיטלי: EMC, IBM ו-נטאפ
בתחום מסדי הנתונים היחסיים: טרהדטה או אורקל (על ידי Oracle Exadata) ו-IBM (באמצעות Netezza)
בתחום החיפוש והמידע: גוגל או אמזון (שהיא גם מובילה בתחום מחשוב הענן, המשיק לתחום נתוני עתק)
בתחום הסטטיסטיקה, כריית המידע והמודיעין העסקי: SAS,‏ SPSS,‏ Cloudera
פתרונות חדשניים לא-SQL-יים: מסד הנתונים קסנדרה, המשמש את פייסבוק ו-MongoDB
ועוד

פתרון כגון Google BigTable, מציע קובייה רב-ממדית, שכל "תא" בה מאחסן פיסת מידע בלתי מפורמטת (דף אינטרנט, תמונה, סרט וידאו, זרם נתונים בינאריים וכדומה). המפתח של התא הוא וקטור (רשימה) של שדות שמאפיינים את התא, שאחד מהם הוא חתימת-זמן מדויקת, לשם קבלת המימד ההיסטורי.

כיוונים אחרים באים מתחום החישוב המבוזר, וכוללים פתרונות כמו Google MapReduce ו-האדופ.

בינה עסקית ונתוני עתק

קיים קשר הדוק בין בינה עסקית (BI) לבין נתוני עתק. הקשר נובע מהצורך להשתמש בכמויות מידע גדולות מאוד על מנת לבצע ניתוחי בינה עסקית תקפים ומשמעותיים. התחום של בינה עסקית מבוססת נתוני עתק מתפתח בקצב מהיר. מכיוון שכלי בינה עסקית מסורתיים לא נבנו באופן המאפשר להם להתמודד עם כמויות כה גדולות של נתונים, פותחו בשנים האחרונות כלי בינה עסקית ייעודיים לנתוני עתק.

ראו גם

לקריאה נוספת

עופר דודזדה ואמיר סנדץ, (ביג דאטה) כלים מעשיים לניתוח בסיסי נתונים, הוצאת אוריון, אפריל 2014

קישורים חיצוניים

מדיה וקבצים בנושא Big data בוויקישיתוף

אור הירשאוגה, היכונו לעולם היוטה-בייט, באתר TheMarker‏, 28 במאי 2012
סטיב לוהר, איך ה-Big-Data נהייתה כל כך גדולה, באתר TheMarker‏, 12 באוגוסט 2012
הניו יורק טיימס, ביג-דאטה, ביג ביזנס, באתר TheMarker‏, 16 בפברואר 2012
אור הירשאוגה, ממפים את אוקיינוס המידע, באתר TheMarker‏, 3 בינואר 2012
Real Time Data Access and Total Data Integration
רן לוי, אהבה, שפעת ומותה של השיטה המדעית – על Big Data, באתר "עושים היסטוריה", 5 בינואר 2015 (שידור של הפודקאסט וטקסט מלא שלו)

הערות שוליים

^ נְתוּנֵי עָתֵק במילון מונחים בסיסיים בטכנולוגיית המידע (השלמות) (תשע"ד), באתר האקדמיה ללשון העברית
^ big, adj. and adv., מילון אוקספורד
^ מאפיינים המכונים לעיתים כ"שלושת ה-V-ים" או The 3 V's of Big Data
^ Anat Rafaeli, Shelly Ashtar, Daniel Altman, Digital Traces: New Data, Resources, and Tools for Psychological-Science Research, Current Directions in Psychological Science 28, 2019-12, עמ' 560–566 doi: 10.1177/0963721419861410
^ Michael M. Tadesse, Hongfei Lin, Bo Xu, Liang Yang, Detection of Depression-Related Posts in Reddit Social Media Forum, IEEE Access 7, 2019, עמ' 44883–44893 doi: 10.1109/access.2019.2909180
^ Daniel Altman, Galit B. Yom-Tov, Marcelo Olivares, Shelly Ashtar, Anat Rafaeli, Do Customer Emotions Affect Agent Speed? An Empirical Study of Emotional Load in Online Customer Contact Centers, Manufacturing & Service Operations Management 23, 2021-07, עמ' 854–875 doi: 10.1287/msom.2020.0897
^ Galit B. Yom-Tov, Shelly Ashtar, Daniel Altman, Michael Natapov, Neta Barkay, Monika Westphal, Anat Rafaeli, Customer Sentiment in Web-Based Service Interactions, Companion of the The Web Conference 2018 on The Web Conference 2018 - WWW '18, ACM Press, 2018 doi: 10.1145/3184558.3191628
^ Elsbeth Turcan, Kathy McKeown, Dreaddit: A Reddit Dataset for Stress Analysis in Social Media, Proceedings of the Tenth International Workshop on Health Text Mining and Information Analysis (LOUHI 2019), Association for Computational Linguistics, 2019 doi: 10.18653/v1/d19-6213
^ אוריאל דסקל, והמספר הנוסף הוא..., באתר כלכליסט, 3 ביולי 2014

[1] נְתוּנֵי עָתֵק במילון מונחים בסיסיים בטכנולוגיית המידע (השלמות) (תשע"ד), באתר האקדמיה ללשון העברית

[2] , adj. and adv., מילון אוקספורד

[3] מאפיינים המכונים לעיתים כ"שלושת ה-V-ים" או The 3 V's of Big Data

[4] Anat Rafaeli, Shelly Ashtar, Daniel Altman, Digital Traces: New Data, Resources, and Tools for Psychological-Science Research, Current Directions in Psychological Science 28, 2019-12, עמ' 560–566 doi: 10.1177/0963721419861410

[5] Michael M. Tadesse, Hongfei Lin, Bo Xu, Liang Yang, Detection of Depression-Related Posts in Reddit Social Media Forum, IEEE Access 7, 2019, עמ' 44883–44893 doi: 10.1109/access.2019.2909180

[6] Daniel Altman, Galit B. Yom-Tov, Marcelo Olivares, Shelly Ashtar, Anat Rafaeli, Do Customer Emotions Affect Agent Speed? An Empirical Study of Emotional Load in Online Customer Contact Centers, Manufacturing & Service Operations Management 23, 2021-07, עמ' 854–875 doi: 10.1287/msom.2020.0897

[7] Galit B. Yom-Tov, Shelly Ashtar, Daniel Altman, Michael Natapov, Neta Barkay, Monika Westphal, Anat Rafaeli, Customer Sentiment in Web-Based Service Interactions, Companion of the The Web Conference 2018 on The Web Conference 2018 - WWW '18, ACM Press, 2018 doi: 10.1145/3184558.3191628

[8] Elsbeth Turcan, Kathy McKeown, Dreaddit: A Reddit Dataset for Stress Analysis in Social Media, Proceedings of the Tenth International Workshop on Health Text Mining and Information Analysis (LOUHI 2019), Association for Computational Linguistics, 2019 doi: 10.18653/v1/d19-6213

[9] אוריאל דסקל, והמספר הנוסף הוא..., באתר כלכליסט, 3 ביולי 2014

[1]