מנוע החיפוש גוגל google

By yourwebs

מנוע גוגל הוקם על ידי שני סטודנטים מאוניברסיטת סטנפורד, Larry Page ו-Sergey Brin.

הרעיון ההתחלתי סביבו הם פעלו היה מנוע חיפוש המתמקד בניתוח הקישורים בין הדפים ברשת האינטרנט. כמו כן מטרתם היתה ליצור מנוע שיוכל לרוץ על מחשב פשוט, ולא על מחשבי על.

השם שניתן למנוע גוגל (Google) הוא משחק מילים מסביב מספר גוגול – 1 ולאחריו 100 אפסים.

גוגל נפתח לראשונה לקהל הרחב בשנת 1998. בשנה זו כבר היו קיימים מנועי החיפוש כגון Yahoo
ו-Altavista ששלטו באותה תקופה בשוק. אם זאת, תוך זמן לא רב גוגל הצליח להפוך להיות מנוע החיפוש הפופולרי ביותר. הסיבות העיקריות להצלחתו הן הרלוונטיות הרבה של התוצאות שבו, מיעוט הקישורים השבורים בתוצאות, והעובדה שבעלי אתרים אינם יכולים לקנות מקום בתוצאות החיפוש, ולכן התוצאות נחשבות אמינות ולא משוחדות.
כיצד מתבצעת שאילתה במנוע החיפוש גוגל?
e מורכב כיום מעשרות אלפי מחשבים הפועלים יחדיו.

באופן פשטני ניתן לחלק את מערך המחשבים שלהם למספר סוגי שרתים:

* שרתי Web (Web Servers), שהם השרתים המציגים לגולשים את ממשק Google ומולם מתבצעת הפעולה של הלקוחות.
* שרתי אינדקס (Index Servers) המסוגלים לענות על השאלה " אילו מהדפים ברשת האינטרנט מכילים את המידע המתאים עבור השאילתה שהקיש הגולש" .
* שרתי מסמכים (Doc Servers) המכילים עותק של הדפים. מהם Google יוצרים את הדף המוחזר אל הגולש, הכולל קטעים מן האתרים המבוקשים. למעשה ניתן להגיד גוגל מייצרים אצלם העתק של רשת האינטרנט (לפחות חלק מרשת האינטרנט – החלק אותו ניתן לחפש בגוגל).
עדכון התוצאות בגוגל
רגע שאתר כלשהו התווסף לאינטרנט, או מרגע שנוסף/השתנה דף חדש לאתר – תוך כמה זמן תוצאות החיפוש בגוגל מתעדכנות עם האתר החדש?

התשובה תלויה בחשיבות שגוגל נותן לאתר וכן במבנה האתר. אתרים להם חשיבות גדולה – גוגל יבקר בהם פעמים רבות ויסרוק אותם לשינויים. גוגל נותן לרוב חשיבות לאתרים עם PageRank גבוה, וכן לאתרים המתעדכנים לעתים קרובות. ייתכן אפילו מצב שגוגל יבקר באותו אתר עשרות פעמים ביום על מנת לאתר עדכונים. אתרים בעלי PageRank נמוך, או אתרים שלא התעדכנו תקופה ארוכה, יזכו לפחות ביקורים מרובוט החיפוש של גוגל.

מהרגע שרובוט החיפוש סורק אתר עד לרגע בו תוצאות החיפוש של גוגל מתעדכנות – עוברת תקופה של כ-24-48 שעות לפחות (" תקופת צינון" ) עד שהנתונים מתעדכנים בתוצאות החיפוש.

זמן העדכון המדויק – אפילו עבור אותו אתר, משתנה כל הזמן בתקופה האחרונה. Google משנים כל העת את האלגוריתם שלהם, את קצב העדכון וכדו' – גם לצורך שיפור התוצאות וגם על מנת להקשות על גורמים שונים להבין בדיוק כיצד המנוע עובד, ולגרום למניפולציות רציניות בתוצאות החיפוש.
המבנה של גוגל כיצד גוגל עונה לשאלות החיפוש של מליוני האנשים הפונים אליו בכל יום? לא הגיוני שכל האנשים מגיעים אל אותו שרת, ומקבלים ממנו שרותים. על מנת לתת לפזר את עומס הפניות של גוגל, וגם על מנת להבטיח שאם חלק מהמחשבים קורסים מנוע החיפוש ימשיך לעבוד ללא הפסקה, ל-Google אין מרכז ראשי אחד אלא מספר מרכזי מידע שונים. מנוע החיפוש Google מורכב מ-100,000 שרתים המחולקים לקבוצות המכונות datacenters.

כאשר אנשים פונים לכתובת google.com, הם מופנים כל העת אל שרתים שונים שיטפלו בפניות שלהם, על מנת לפזר את העומס ביניהם.

בייחוד ברגעים בהם גוגל מעדכן את בסיסי הנתונים שלו באתרים חדשים ובשינויים באתרים קיימים, datacenters שונים מציגים תוצאות שונות עבור חיפושים.

מקדמי אתרים עוקבים לרוב אחרי datacenters שונים כאשר הם מקדמים אתרים, על מנת לראות את המגמה של תוצאות הקידום – לרוב מספר datacenters מתעדכנים לפני אחרים, וכך ניתן לראות את השפעת תהליך הקידום – לפני שכל השרתים התעדכנו.

החומרה בה משתמש גוגל

החומרה בה משתמש גוגל היא לרוב שרתי Intel 2U בעלי מעבד Xeonעם ארכיטקטורה הדומה לזו של מחשב אישי סטנדרטי, וכן הם משתמשים בכונני IDE. המידע בשרתים נשמר על מערכת קבצים בשם GFS – Google File System. מערכת זו נכתבה במיוחד על ידי הצוות של גוגל על מנת להתאים לעבודה של מנוע החיפוש.

תגים: , , , , , ,

כתיבת תגובה