לדלג לתוכן

reCAPTCHA

מתוך ויקיפדיה, האנציקלופדיה החופשית
סמליל מערכת reCAPTCHA

reCAPTCHA היא מערכת שפותחה לראשונה על-ידי לואיס פון אהן באוניברסיטת קרנגי מלון.[1] מטרתה היא לסייע בהמרת טקסטים מודפסים לפורמט דיגיטלי, תוך שימוש ב-CAPTCHA (מנגנון המשמש להגנה על אתרי אינטרנט מפני בוטים). בספטמבר 2009 נרכשה reCAPTCHA על ידי גוגל. נכון לשנת 2012, הפרויקט אותו מובילה reCAPTCHA הוא המרת כל גיליונות העיתון "הניו יורק טיימס" לפורמט דיגיטלי. בנוסף, היא מסייעת לפענח מילים מספרים שנסרקו במסגרת פרויקט גוגל ספרים.

בשנת 2014 הכניסה גוגל למערכת ReCAPTCHA שיטת אימות אחרת המתבססת על אתגר זיהוי תמונות הדורש לסמן תמונות המכילות אלמנט מסוים. בנוסף פיתחה אפשרות אימות באמצעות לחיצה פשוטה על תיבת סימון "אני לא רובוט", המערכת מזהה את תנועות העכבר ולפיהן קובעת אם מדובר באדם.

בנובמבר 2018 השיקה גוגל את גרסה 3, ובה אין צורך באימות מצד הלקוח. מפעיל האתר מטמיע את המערכת באתר, והמערכת מדרגת על פי התנהגות הלקוח, מה הסבירות כי מדובר ברובוט. מפעיל האתר יכול לקבוע כי מרמת סבירות מסוימת הלקוח ייחסם או יידרש ממנו אימות נוסף[2].

אחת הבעיות בהמרת טקסטים לפורמט דיגיטלי באמצעות תוכנות לזיהוי תווים אופטי (OCR), היא שלעיתים קרובות, תוכנות אלה אינן מצליחות לזהות מילים מסוימות בטקסט אותו הן סורקות, למשל, בשל דהייה או "מריחה" של המילה המודפסת (במיוחד במקרים בהם הטקסט הנסרק הוא ישן מאוד, כמו גיליונות העיתון "ניו יורק טיימס" הראשונים, שיצאו לאור ב-1851).

כדי להתגבר על הבעיה, יש צורך בזיהוי המילה על ידי גורם אנושי. לצורך כך, מערכת reCAPTCHA מספקת לאתרים הרשומים לפרויקט (הרישום לפרויקט הוא חופשי), תמונות של מילים סרוקות אשר לא זוהו על ידי התוכנה. אתרים אלה מציגים את התמונה לגולשיהם כחלק ממנגנון ה-CAPTCHA הרגיל שלהם. הגולשים מזהים את המילים הסרוקות, והתוצאות מועברות בחזרה למערכת reCAPTCHA.

נכון לשנת 2011, המערכת מסייעת בזיהוי של כ-100 מיליון מילים מדי יום. בין האתרים הגדולים העושים שימוש במערכת ניתן למצוא את פייסבוק, טוויטר ו-TicketMaster.

שיטת העבודה

[עריכת קוד מקור | עריכה]

בסריקת טקסט מודפס והמרתו לטקסט דיגיטלי, נהוג להשתמש בשתי תוכנות שונות לזיהוי תווים אופטי. במקרה ובו אין התאמה בין תוצאות הזיהוי של שתי התוכנות, מומרת המילה הסרוקה ל-CAPTCHA. המילה הסרוקה מוצגת לגולש בצמוד למילת בקרה, אשר זהותה ידועה. המערכת מניחה כי אם זיהה הגולש נכונה את מילת הבקרה, הרי שהוא זיהה נכונה גם את המילה שבמחלוקת.

זיהוי שבוצע על ידי כל אחת מתוכנות זיהוי התווים, מקנה למילה חצי נקודה, וזיהוי על ידי גורם אנושי מעניק למילה נקודה אחת. כאשר מילה מסוימת צוברת 2.5 נקודות, המערכת רואה בה מילה שפוענחה. מילים שצברו מספר רב של נקודות זיהוי, "ממוחזרות" ומשמשות כמילות בקרה.

לקריאה נוספת

[עריכת קוד מקור | עריכה]

קישורים חיצוניים

[עריכת קוד מקור | עריכה]
ויקישיתוף מדיה וקבצים בנושא ReCAPTCHA בוויקישיתוף

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ לואיס פון אהן, Teaching computers to read: Google acquires reCAPTCHA, https://googleblog.blogspot.com/, ‏16 ספטמבר 2009 (באנגלית)
  2. ^ יניב אביטל, סוף סוף: גוגל הופכת את ה-CAPTCHA להרבה פחות מעיק, באתר geektime, ‏1 בנובמבר 2018