ענקית הטכנולוגיה מטאברס שוב עשתה גלים בקהילת מומחי תרגום המכונה. החברה פרסמה לאחרונה עדכון לגבי פרויקט התרגום הגדול שלה "שום שפה לא נשארת מאחור", שאמור לשרת כעת 200 שפות.
מטא מכנה את הפרויקט "שום שפה לא נשארת מאחור" ראשון מסוגו. הפרויקט נעשה באמצעות AI הבנוי על מודל של "קוד פתוח". מודל זה מאפשר קבלת הערכות ממומחים לצורך שיפור התרגום. בפרוייקט זה מתרחש תרגום מקצועי למעל 200 שפות ביניהן גם שפות שסובלות ממחסור במשאבים כמו אורדו, לוגאנדה ועוד.
כדי להבין יותר את משמעות ההצהרה של מטא עלינו לפרק ולנתח אותה:
הפרויקט ראשון מסוגו – תרגום מכונה לשפות רבות קיים בתעשייה אך לא בגודל הפרויקט שחברת מטאברס לקחה על עצמה.
השאיפה של מטאברס לתרגם 200 שפות בפרויקט "שום שפה לא נשארת מאחור" מתעלה לחלוטין על פרויקט התרגום הקודם שלה M2M-100 model. פרויקט שבעזרתו יכלה לתרגם 100 שפות בלי להשתמש באנגלית כשפת ביניים.
פרויקט של קוד פתוח – המודלים שבהם משתמשת מטאברס לפרויקט שום שפה לא נשארת מאחור פתוחים לכולם. כך שכל חוקר יכול לבחון את המודלים, לתקן טעויות ולהעשיר אותם.
פיתוח תרגומים איכותיים ביותר – כדי לדעת את רמת איכות התרגום, זקוקה מטאברס לסמנים ומדרגים שימדדו את האיכות של תרגומי המכונה. מטא יצרה בקרת איכות שמתאימה לבחון את איכות התרגום בפרויקט הענק, שבו מבצעים תרגום מכונה ל-200 שפות שונות.
שפות שיש להן מחסור במשאבים – כלומר, שפות שאין בהן הרבה מידע זמין ברשת. משום כך השפות הללו לא זוכות לתשומת לב רבה ממפתחי תרגום מכונה. פרויקט "שום שפה לא נשארת מאחור", הוא אולי המאמץ המשמעותי ביותר לתרגם בתרגום מכונה גם את השפות הללו, כחלק ממאתיים השפות בו.
שום שפה לא נשארת מאחור: ברכה לשפות שאינן מיוצגות כראוי
הרווח הגדול ביותר שהפרויקט מביא הוא תשומת הלב המוגברת לשפות הפחות מיוצגות באינטרנט. אותן שפות שקהילת תרגום המכונה מכנה שפות דלות משאבים.
מחקר ופיתוח בתרגום מכונה נוטה להתמקד בשפות ידועות ורווחיות שיש עליהן מידע רב ברשת. מידע שניתן להשתמש בו כדי לייעל את יכולות תרגום המכונה.
כלומר, ככל שתרגום מכונה מתפתח הרווחים מהטכנולוגיה יתפרסו על שפות שונות באופן לא שווה. ככל ששפה היא בעלת יותר מידע נגיש ברשת מלכתחילה כך איכות התרגומים בה תהיה גבוהה יותר. ובדיוק להפך, ככל שפחות מידע קיים, כך איכות תרגום המכונה בשפה דלת משאבים צפויה לרדת.
בפרויקט "שום שפה לא נשארת מאחור" מטא מפעילה מאמץ כביר כדי לכלול יותר שפות מאי פעם. בכך היא מנסה ליצור תרגום מכונה איכותי גם לשפות דלות במשאבים.
שום שפה לא נשארת מאחור – מבוסס לחלוטין על קוד פתוח
מלכתחילה חלקים נרחבים בפרויקט שום שפה לא נשארת מאחור נכתבו בקוד פתוח. בנוסף לתרגום המכונה עצמו מטא פתחה לשיפורים גם מאפיינים נוספים כמו: LASER (או (Language-Agnostic Sentence Representation)) ו- .FLORES
(Facebook Low-Resource) FLORES הוא מכשיר שבעזרתו משפרים את האיכות של תרגום מכונה ומאמנים את האינטליגנציה המלאכותית שלו. לאור זאת לחוקרים מבחוץ ישנה גישה מלאה למחקר ופיתוח של התרגום מכונה.
הגרסה הקודמת שלו FLORES-101 שוחררה ביוני 2021 על בסיס של קוד פתוח, גם גרסה זו קידמה שפות דלות במשאבים בעזרת תרגום מכונה. מהר מאד השתמשו בה באופן פעיל למשל בכנס תרגום המכונה של 2021. FLORES-200 מרחיב ל- 200 שפות את החלתו של תרגום מכונה גם על שפות פחות ידועות ודלות במשאבים.
מטאברס החליטה לבצע את פרויקט "שום שפה לא נשארת מאחור" בקוד פתוח. בכך היא הפכה את הפיתוח של טכנולוגיות תרגום מכונה לאחריות קולקטיבית. חוקרים יכולים לשפר את המערכת הקיימת ולא להסתכן במאמצים מיותרים להמציא מחדש שידרוגים שכבר פותחו. כך מאפשרים לכלל החוקרים לתרום משמעותית לפיתוח הטכנולוגיה.
צעדים לקראת גישה אתית בפיתוח תרגום מכונה
לפי המחקר" "פרויקט "שום שפה לא נשארת מאחור" יכול לתמרץ כותבים ויוצרים בשפות דלות במידע ובמשאבים לחלוק ידע על התרבות ועל המנהגים שלהם בשפתם. זאת באתרי אינטרנט שונים כמו ויקיפדיה, או ברשתות החברתיות."
הדבר חשוב כיוון ששפות דלות משאבים עלולות להיכחד והתרבויות שהן מייצגות עלולות להיטמע ולהיעלם. שפה ותרבות קשורות יחדיו בקשר לא ניתן לניתוק. פרויקט "שום שפה לא נשארת מאחור" מאפשר אם ככה את שימור תרבותן של קהילות קטנות. כאלה שמפרסמות מידע מועט מאד בשפתן באינטרנט.
חלק מההתנהלות האתית של מטאברס בפרויקט "שום שפה לא נשארת מאחור" הוא ההתייעצות עם אנשים מאותן קהילות המשתמשות בשפות מעוטות משאבים. זאת כדי לדעת מהן כיצד המדיניות של מטאברס תשפיע על חיי היומיום באותן קהילות.
המטרה היא להימנע מלהחריף את אי השוויון בעולם הדיגיטלי. זוהי גישה ידועה בהתנהלות עם מיעוטים: "אל תעשו שום דבר עלינו בלעדינו". זה אומר שפרויקט: "שום שפה לא נשארת מאחור" הוא דוגמא ליחס לקהילות מוחלשות.
מחשבות לסיום
פרויקט "שום שפה לא נשארת מאחור" הוא בהחלט שאפתני במידותיו. במיוחד בשאיפתו לכלול תרגום מכונה איכותי למאתיים שפות. אך יש בו יותר מכמות נכבדה של שפות.
הפרויקט הוא דרך מצויינת לתרגום למגזרים מוחלשים שירוויחו תרגום מכונה איכותי בשפתם. זהו מאמץ חלוצי לא רק מבחינה טכנולוגית אלא גם כדרך לבניית קהילה סביב תרגום מכונה. כך הפרויקט מסייע לשבור את מחסומי השפה ברחבי העולם.
מי שמעוניין לדעת עוד על תפקידו של התרגום בעולם הדיגיטלי של מטאברס מוזמן לבדוק את המאמר הבא.
תרגם וערך גילי קימור