- עמוד הבית
-
אודותינו
-
שפות
-
שירותים
-
תרגום משפטי
- לקוחות
-
יצירת קשר
IL: +972 72 2200700
- כניסה לאתר
צור אתנו קשר
הכנס את הפרטים שלך ונחזור אליך בעוד מספר דקות
כיצד מנוע תרגום ממוכן לומד טקסט?
זמן קריאה : 7 דק'
במהלך השנים נוצרו ארבעה סוגי מנוע המיועדים ליצירת תרגום ממוכן איכותי של טקסט (להלן: "תרגום מכונה"). כל סוג פועל בדרך משלו, ויש לו יתרונות וחסרונות.
1)תרגום ממוכן המבוסס על מערכת חוקים
זהו הסוג הוותיק ביותר של תרגום-מכונה שזכה לשימוש מעשי. הוא עובד על ידי ניתוח טקסטים בשפת המקור ושפת היעד. כיצד עובד המנוע של סוג זה?
בשלב הראשון הוא מפרק את הטקסטים ליחידות הבסיסיות שלהם, כלומר, למשפטים, ביטויים, צירופי מילים ומילים בודדות. בשלב השני הוא מנתח את מבני השפות ומוצא הצלבות תואמות ביניהם. בשלב השלישי הוא מתרגם את הטקסט הנתון לפי מערכת של חוקים דקדוקיים וכללים לשוניים שתוכנתו מראש על ידי המומחים הלשונים שהתקינו את המערכת. מנוע תרגום מסוג זה מצליח לתרגם ביעילות מגוון נרחב של טקסטים. הוא אינו מצריך יצירה ושימוש במאגרי ענק סטטיסטיים, בגלל שהוא מבוסס על חוקיי השפה ולא על אוצר רחב של מילים וביטויים. אך למנוע הזה ישנם כמה חסרונות מהותיים: א) כדי לבנות מערכת של חוקים לצמד השפות נדרשות השקעה רבה של זמן, של עבודה אינטנסיבית ושל כסף. ב) מנוע תרגום המבוסס על מערכת חוקים קבועה, שקודדה לתוכו מראש על ידי מומחים, הוא מנוע בלתי גמיש. הוא אינו מסוגל להבחין בתופעה לשונית חדשה ולהתאימה במהירות למערכת החוקים הקבועה המקודדת בתוכו. הוא אינו מבין הקשרים שקיימים בטקסט המקור ולהעבירם את טקסט היעד. הוא מתקשה לתרגם לשון מטאפורית (שמרבה להופיע בשירים ובסיפורים) והוא מתקשה להתמודד עם טקסטים המשתמשים בסלנג.
כל החסרונות עלולים להוביל לתרגום ברמה נמוכה. משום כך עברה תעשיית התרגום להשתמש בעיקר במנועי תרגום מבוססי סטטיסטיקה. ובכל זאת עדיין שכיח השימוש במנוע תרגום המבוסס על חוקים. כך קורה, למשל, כאשר מתרגמים טקסט ששפת המקור או שפת היעד שלו עדיין לא צברו אוצר לשוני או ניסיון תרגומי המספיקים לאַמֵּן מנוע סטטיסטי.
2) תרגום ממוכן המבוסס על סטטיסטיקה
מנוע תרגום סטטיסטי לא מכיר את הקונספט של חוקי תחביר ודקדוק. הסוד מאחורי מנוע תרגום סטטיסטי הוא קיומו של מאגר לשוני עצום. מאגר זה כולל מצד אחד חומר דו לשוני, כלומר חומר בשפת המקור וחומר בשפת היעד, כאשר לכול זוג שפות יש מאגר משלו. מצד שני כלול במאגר זה חומר חד לשוני, כלומר, אוצר מילים עשיר מאד בשפה אחת.
מנוע התרגום הסטטיסטי יוצר מודלים לתרגום שנקבעים על יסוד סטטיסטיקה הבודקת את מאגרי החומר העצומים שלו. הוא מחפש התאמות בין קטעי טקסטים בשפת המקור ובשפת היעד, וגם התאמות בין משפטים, בין ביטויים קצרים, ואפילו בין מילים בודדות. לאחר שהמנוע מוצא ורושם את כל ההתאמות האלה מה הוא עושה? הוא מציע לך את התרגומים השכיחים ביותר הניתנים לטקסט המקור שלך. לפי תפיסתו, התרגום השכיח ביותר לטקסט היא המתאימה ביותר לתרגום הטקסט.
תרגום סטטיסטי הוא השיטה הנפוצה ביותר של תרגום ממוכן, מנועי תרגום ידועים כמו גוגל טרנסלייט הם מנועי תרגום סטטיסטי. למנוע התרגום הסטטיסטי יש יתרון רב: בעזרת מאגר הטקסטים הגדול שלו ניתן לאמן בקלות, במהירות ובמידת גמישות גדולה, כול מנוע תרגום מהסוג הזה. בעזרתו ניתן להגיע לרמה של מצוינות בתרגום ואפילו לרמה של בקיאות גדולה בעולם המונחים של שדה מקצועי מסויים. לדוגמא: מנוע תרגום סטטיסטי המאורגן היטב מסוגל להציג את כל המושגים המשפטיים הרלוונטיים לתרגום של פסק דין מסוים.
בדיוק כמו משרד עורכי דין שעבודתו משתפרת ככל שיש לו יותר ניסיון, כך ככל שהמאגר של התרגום הסטטיסטי יהיה יותר עשיר ומנוסה יותר ב"תקדימים", ככה הוא יעלה הצעות מותאמות יותר ונכונות יותר עבור המשתמשים בו. את ההצעות הללו הוא יעלה על סמך טקסטים שתרגם בעבר באותו נושא, המשמשים כ"תקדימים".
בדרך כלל טקסטים שמוכרים למאגר של מנוע תרגום סטטיסטי יהיו פשוטים להבנה לאחר שיתורגמו על ידו. מהו החיסרון הגדול של תרגום סטטיסטי? ברגע שהוא נתקל בטקסט שאינו מופיע במאגר שלו הוא יתקשה מאד לתרגם אותו ברמה ראויה. לכן חייב מנוע תרגום סטטיסטי להיות מותאם לסוג הטקסטים שהוא מתרגם. למשל, לא כדאי להשתמש במנוע תרגום סטטיסטי. שמכיל בעיקר תרגומים משפטיים, לצורך תרגום של טקסט ספרותי, מכיוון שהתוצאה תהיה לא מותאמת וגרועה.
3) תרגום ממוכן המבוסס על דוגמאות
סוג המנוע של תרגום ממוכן המבוסס על דוגמאות מכיל בתוכו אוסף של משפטי דוגמא. משפטים אלה לרוב קצרים ופשוטים בשפת המקור ובשפת היעד. מובן שלכול שפה יהיה מאגר כזה משלה. מנוע תרגום זה מבצע השוואה בין משפטי הדוגמא הפשוטים המתוכנתים בתוכו לבין משפטים וביטויים דומים המופיעים בשפת המקור של הטקסט המיועד לתרגום. אחר כך הוא מתרגם את טקסט המקור בצורה כמה שיותר דומה לדוגמאות שיש בתוכו. מנוע תרגום מהסוג הזה נחשב למנוע מאד לא אמין. מדוע? מכיוון שאם המשפטים שבטקסט המיועד לתרגום דומים לדוגמאות שמתוכנתות במנוע - התוצאה תהיה תרגום ברמה גבוהה מאד. אך אם המשפטים שבטקסט המיועד לתרגום יהיו שונים מהדוגמאות המתוכנתות בתוך המנוע - התוצאה תהיה גרועה מאד. יתכן שמהסיבה הזאת ממעטים להשתמש במנוע מהסוג הזה.
4) תרגום ממוכן טבעי
סוג זה מייצג את הגישה החדשה ביותר בתחום מנועי התרגום. המחקר בו עדיין רק בחיתוליו (בדומה לשיטות התרגום ההיברידיות בהן נדון בהמשך). מנוע זה מבוסס על סוג מיוחד של למידה שנקרא machinelearning. מה כל כך מיוחד בסוג הלמידה הזה? ב –machinelearning מנוע התרגום לומד לתרגם על ידי חיקוי של המוח האנושי. כיצד הוא עושה זאת? מנוע התרגום הזה בנוי בסדרה של גרעינים שמחוברים אחד לשני ברשת מורכבת ממש כמו תאי העצב במוח האנושי. כול אחד מהגרעינים הללו מסוגל להחזיק בתוכו מילים בודדות, ביטויים ואף קטעים שונים. הגרעינים הללו מסוגלים להתייחס אחד לשני בהקשרים מורכבים המבוססים על טקסטים בשתי שפות (שפת המקור ושפת היעד). משתמשים בגרעינים אלה כדי לאמן את מערכת המנוע ש"לומדת" שפות בדרך דומה לדרכו של המוח האנושי. מדובר במנוע תרגום מאד דינמי וחכם, שמסתגל במהירות ולומד להכיר במהירות את קהל המשתמשים בו על מנת לספק לקהל זה אוסף נרחב של ניחושים שיקלעו אל התרגום הרצוי לו. המנוע הזה מבין יותר ממנועים אחרים את הקונטקסט שבו מופיע טקסט נתון, ולכן הוא קולע בצורה יותר טובה למשמעות הנכונה של מילים. אבל מאחר שהמנוע הזה דורש עיבוד רב, הוא הפך למבצעי רק בשנים האחרונות.
מהו הדור הבא של מנועי התרגום הממוכן?
תעשיית התרגום מבינה שלכול אחת משיטות התרגום הממוכן יש יתרונות וחסרונות. תעשייה זו יודעת שתרגום ממוכן יעיל ומוצלח דורש ממנה למקסם את ההיתרונות של כל שיטות התרגום הממוכן, להפחית ככל האפשר את החסרונות שלהן וליצור שילוב בין המנועים השונים של התרגום הממוכן. לאחרונה פותחו שלושה מנועים היברידיים המכילים שילוב בין השיטות השונות של תרגום ממוכן. מנועים אלה יוצרים כלי תרגום מתוחכם ביותר, שבו "גדול השלם מסך מרכיביו".
המנועים ההיברידיים הם:
- מנוע תרגום מבוסס חוקים שמשלב בתוכו גם תוכנות של ניתוח סטטיסטי ומאגרים סטטיסטיים גדולים. כיצד נוצר שילוב זה? בשלב הראשון המנוע המבוסס על חוקים מתרגם את טקסט המקור לשפת היעד על סמך חוקי השפה והדקדוק שתוכנתו בו. בשלב השני המנוע הסטטיסטי עובר ומתקן כול טעות שנעשית על ידי המנוע מבוסס החוקים. כך מצליח המנוע ההיברידי הזה לשלב את החקיקה הדקדוקית הנוקשה המתוכנתת במנוע המבוסס על חוקים עם אוצר המילים העצום המתוכנת במנוע התרגום הסטטיסטי.
- מנוע תרגום סטטיסטי מכוון מנוע מבוסס חוקים. במנוע היברידי זה המנוע מבוסס החוקים לא מתרגם את הטקסט אלא רק משמש בתור מפה העוזרת למנוע הסטטיסטי להיות מאורגן בצורה יותר יעילה וזמינה למשתמש. במפה הזאת נוצרות קטגוריות לשוניות כמו פעלים, שמות תואר ושמות עצם, שמסדרות באופן נוח את כול המילים מהמאגר הסטטיסטי העצום.
- מנוע תרגום שמשתמש גם בתרגום מבוסס חוקים וגם בתרגום סטטיסטי וממזג אותם באמצעות שיטת ה- machinelearning. מאחר שמנוע היברידי זה מכיל בתוכו את היתרונות של כול השיטות הקיימות, הוא הופך למנוע החכם, הדינמי והיעיל ביותר.
מאמרים נוספים שעשויים לעניין אותך
תגובות