צעדים ראשונים עם MongoDB למדען נתונים – חלק א' – סביבת העבודה


במאמרים הקודמים הוצגה תמונה כללית של פתרונות לניהול בסיסי נתונים בעולם ה-Big-Data, בדגש על NoSQL Databases.במאמר זה נציג את אחד מהכלים הפופולריים ביותר מקרב ה-NoSQL, MongoDB.
MongoDB הוא בסיס נתונים NoSQL מבוסס מסמכים (Document Oriented), והוא בעל מספר יתרונות מובהקים:

  • פעולות מהירות מאוד ברמת המסמך (אנלוגי לרשומה) בודדת.
  • הביצועים ניתנים לשיפור באופן פשוט (Highly Scalable) – בנוי לעדכון וחלוקה אוטומטית של כלל הנתונים בין המכונות האוגרות את הנתונים (Auto-Sharding).
  • בסיס הנתונים הוא חצי מובנה (Semi-Structured), כך שניתן לשמור על מודל נתונים ברור מצד אחד, וגמיש מאוד לשינויים – מאידך.
    כנובע מגמישות זו, סטארטאפים רבים בוחרים ב-MongoDB על פני בסיסי נתונים רלציוניים כמו SQL Server או MySQL – מה שמאפשר להם להטמיע במהירות שינויים במבנה הנתונים.
  • פשוט יחסית להתקנה ותפעול.

 

חשוב לציין, כי היתרון המרכזי בשימוש ב-MongoDB ע"י מדען נתונים הוא היכולת לקלוט ולעבד מידע מ-Api’s רבים הקיימים בעולם, ביניהם מ-Twitter, LinkedIn, Github ועוד רבים אחרים, השמורים בפורמט Json. הפורמט הוא טקסטואלי, ומציג מבנה היררכי הכולל שדות וערכים.
במאמר זה תוצג התקנה והפעלה בסיסית על מערכת ההפעלה Windows, ובמאמר הבא תוצג שפת השאילתות הייחודית של MongoDB.

התקנת MongoDB

התקנת הכלי פשוטה ביותר:

  1. להוריד את הגרסה המעודכנת של הכלי מ- http://www.mongodb.org.
  2. להריץ את הקובץ, לבחור ב-'Complete Install' ולהמשיך בהתאם להוראות ההתקנה.

לאחר התקנת הכלי, הוא מוכן באופן מידי לפעולה – ללא צורך מהותי בקביעת הגדרות שרת, קונפיגורציות ושאר מרעין בישין.

הדבר היחיד שמומלץ לעשות מיד לאחר ההתקנה, הוא ליצור תיקייה לשמירת קבצי הנתונים. בדוגמה שלנו פתחתי את התיקייה במיקום הבא: "C:\Users\eyal\Mongodb data" .

הפעלת MongoDB

הפעלת ה-MongoDB כוללת שני שלבים: הרמת ה-Server, והפעלת Client. לאחר הפעלת השרת, ניתן לפעול כולו מכמה Client'ים שונים (לדוגמה: אחד מריץ סקריפט דרך Python, ובאחר מתחקרים נתונים ישירות).

הפעלת ה-Server:

  1. step 4.5 - command lineלהפעיל את ה-Command Prompt ב-Windows (כפתור Start ואחריו לכתוב "cmd", כפתור ימני ובחירה ב-"Run as administrator").
  2. ב-Command Prompt לנווט לתיקיית ה-MongoDB, ממנה לתיקיית "Bin", ולהפעיל את הפקודה "mongod". פקודה זו תפעיל את השרת.
    מומלץ להוסיף לפקודה גם את מיקום התיקייה לשמירת הנתונים שהגדרנו בסיום ההתקנה, באופן הבא:
    mongod –dbpath “<specific path for MongoDB data>” .ללא פקודה זו, יישמרו כלל הנתונים בתיקיית ברירת המחדל (חשוב למי שמחפש הפרדה בין מערכת ניהול בסיס הנתונים לאחסון הנתונים עצמם; לדוג': המערכת שמורה בכונן C, ואת הנתונים המסיביים רוצים לשמור בכונן D).
  1. בשלב זה השרת יעלה, ויבצע בדיקות ו-recovery אם נדרש. כאשר יסיים לעלות, יציג את החיווי "Waiting for connections on port…". כעת ניתן להפעיל את ה-Client.step 6 - mongodb server activation complete a

 

הפעלת ה-Client (נקרא גם Mongo Shell)

  1. להפעיל בשנית את ה -Command Prompt, כפתור ימני ובחירה ב-"Open in new window").
  2. לנווט בחלון החדש לתיקיית ה-MongoDB, ולהפעיל את הפקודה "mongo".
  3. כעת MongoDB מוכן לתחילת העבודה.
    step 8 - mongodb client activation complete a

 

עד כאן על סביבת העבודה של MongoDB. במאמר הבא נלמד כיצד לבצע פעולות נפוצות של עיבוד נתונים בעזרת שפת השאילתות הייחודית של MongoDB, ונכיר טוב יותר את פורמט json.

השארת תגובה