השפה המופשטת מאחורי תרגום המכונה • גוגל לא נותנת לנו פקודות • מתרגמים נ’ בינות מלאכותיות » רבע לדיגיטל

רבע לדיגיטל. קליק לארכיון המדור

השפה המופשטת מאחורי גוגל תרגום

בעקבות דיווח של גוגל, אתרי טכנולוגיה דיווחו בהתרגשות שהבינה המלאכותית שמאחורי גוגל טרנסלייט המציאה שפה. המציאות רק קצת פחות מקריפה: הבינה המלאכותית גילתה דרך יעילה יותר לתרגם בין שפות, באמצעות interlingua – שפה אבסטרקטית שמקשרת בין שתי השפות.

יובל פינטר, דוקטורנט למדעי המחשב בתחום עיבוד שפה באוניברסיטת ג’ורג’יה טק, הסביר בתוכנית את משמעות החידוש. כך סיפר לנו בראיון מקדים: “גוגל תרגום פרסה לאחרונה מנוע תרגום חדש שהחליף את הישן, בהדרגה החל בספטמבר. המערכת מיישמת רעיונות שמסתובבים בעולם המחקר כבר כמה עשורים ורק לאחרונה הפכו ישימים. בנובמבר חברי הצוות פרסמו מאמר ובו הסבירו איך המערכת שאימנו למעשה מצליחה לייצג שפה אנושית באופן מופשט, כך שמתאפשר לתרגם ישירות בין שפות שהמערכת מעולם לא פגשה דוגמאות עבורן. הביצועים שהציגו לא מושלמים, אבל בהחלט יש כאן קפיצת מדרגה קונספטואלית.

“במשך רוב ההיסטוריה של תרגום ממוחשב, הגישה השלטת היתה ‘מבוססת-ביטויים’. לפי גישה זו, בגדול מפרקים את משפט המקור לחלקים (ביטויים) שנראים סבירים לתרגום, מתרגמים אותם בנפרד ואז בונים את המשפט בשפת היעד כשמנסים כמה שיותר לקלוע לתחביר ולהגיון שלה. את הידע של כל אחד מהשלבים האלה אפשר לבנות באופן אוטומטי: מראים למערכת המון דוגמאות של משפטים מתורגמים ושל משפטים דקדוקיים מכל אחת מהשפות, והיא ‘לומדת’ איך לפרק משפט, איך לתרגם כל ביטוי, ואיך להדביק. אבל עדיין יש הרבה התערבות אנושית בכל אחד מהשלבים ובמעברים ביניהם. למשל, אם ניקח את המשפט ‘אתמול ביקר ראש הממשלה בתחנת כוח’ ונבקש תרגום לאנגלית, המערכת תצטרך לדעת, בין היתר: ש’ראש הממשלה’ זה ביטוי אחד שתרגומו The Prime Minister ולא head the government; ש’ביקר’ זה במובן הפיזי (visited) ולא הרטורי (criticized); שהפועל במשפט המתורגם צריך לבוא אחרי הנושא; ש’אתמול’ יצטרך פסיק אחריו; ש-‘ב’ זה at ולא in; ועוד. שני הכללים הראשונים יילמדו ברמה סבירה באופן אוטומטי, אבל שלושת האחרונים כנראה ידרשו יד אנושית שתקודד ידע ספציפי על עברית ואנגלית. אלו המערכות שהיו נפוצות עד היום.

חתול גוגל. תמונה: Serena (cc-by-sa)

חתול גוגל. תמונה: Serena (cc-by-sa)

“במערכת החדשה ישנו יישום מאסיבי של טכנולוגיה, שעד לפני כמה שנים היתה בעיקר שעשוע תיאורטי, ועכשיו התאפשר בזכות התקדמויות בכוח חישוב ובתצורת מעבדים, וצבירה של כמויות מידע בסדרי גודל מעל מה שהיה מקובל. באלגוריתם החדש, במקום הרבה חוקים שבני אדם כתבו, או לפחות הכווינו על סמך ידע על כל שפה, המחשב בונה לעצמו את החוקים. ההבדל העיקרי הוא שמתקבל ישירות תרגום ממשפט שלם למשפט שלם, ולכן לא צריך להכיר מראש את השפות כל עוד יש מספיק נתונים.

,המאמר האחרון שגוגל הוציאו הראה שלא רק תהליך התרגום זהה בין זוגות של שפות, אלא שכתוצר לוואי של הלמידה, המערכת בונה מין ייצוג כללי, לא תלוי-שפה, של המשפט. אמרנו שעד היום מערכת לתרגום בין שתי שפות היתה תלויה בהימצאותם של מליונים של משפטים שאנחנו יודעים את התרגום שלהם. קל לעשות את זה לזוגות שפות כמו אנגלית-צרפתית, למשל, כשכל פרוטוקול של הפרלמנט הקנדי או מנגנוני האיחוד האירופי יוצא בפורמט רב-לשוני אחיד. אבל מה קורה כשמנסים לבנות מערכת של תרגום מקוריאנית לסוואהילי, או עברית לספרדית? מה שעשו עד היום זה תרגום דרך שפת ביניים (בפועל, תמיד אנגלית), מקוריאנית לאנגלית ומשם לסוואהילי. זה הרבה יותר הגיוני גם ביישום – נניח יש 100 שפות, אז צריכים בערך 200 ממשקים, במקום בערך 10,000 אם רוצים תרגום ישיר בין כל שפה לכל שפה, שזה לא ישים. חסרון אחד של הגישה הזו הוא אפקט של ‘טלפון שבור’ כשהתרגומים לא מושלמים, אבל יש גם עניין של אובדן מידע. למשל מעברית לספרדית – המשפט ‘החתולה אוכלת את הגבינה’ תתורגם דרך האנגלית the cat is eating the cheese, ומאבדים פה את העובדה שהחתולה היא נקבה, הבחנה שיש גם בעברית וגם בספרדית אבל אין באנגלית. ‘שפת הביניים’ המופשטת שגוגל מצאה עדות לה, לעומת זאת, מספיק עשירה כדי להכיל גם את המידע של המין הדקדוקי, וזה ישתמר במעבר ל-gata הספרדית.

“‘שפת הביניים’ עצמה היא, כאמור, מופשטת. היא חיה במרחב מתמטי ואי אפשר להגות את המילים והמשפטים בה. איך גוגל הראו שהיא קיימת? לקחו משפטים מתורגמים בין יפנית לאנגלית ובין קוריאנית לאנגלית, ואימנו מערכת רק עליהם. אחר כך אמרו למערכת לתרגם משפטים מיפנית לקוריאנית, דברים שהיא לא ראתה בזמן האימון. התרגומים היו סבירים, והתחרו יפה בתרגום שעבר דרך אנגלית. אחר-כך קצת ‘עזרו’ למערכת עם כמות קטנה יחסית של דוגמאות תרגום מיפנית לקוריאנית, ואז התרגומים היו טובים כמו מודל ישיר, שאומן על הרבה דוגמאות של יפנית-קוריאנית.

“לפי ההודעות של גוגל, המערכת כבר נפרסה, כלומר זו המערכת שעכשיו נמצאת ופעילה כשאנחנו משתמשים בגוגל טרנסלייט. התרגומים מאנגלית לכל השפות ולהפך אמורים להיות טובים יותר מאשר מקודם. נראה שעוד לא פרסו את המודל המשותף, אבל אם זה יקרה, גם האיכות מעברית לשפות אחרות תשתפר. על עברית הם לא פרסמו תוצאות, אני לא יודע אם דוברי עברית נהנים משיפור משמעותי”.

גוגל לא נותנת לישראלים אפשרויות או פקודות

יעל סלע, ראש צוות הלוקליזציה של גוגל לעברית, הרצתה בכנס אגודת המתרגמים על אתגרי תרגום ממשקים במדינות שונות. בשיחה מקדימה עם עורכת רבע לדיגיטל, אחינעם קפון, סיפרה סלע: “להרצאה שלי קראתי באנגלית ‘הו דה פאק איז ג’ים’, ובעברית מיננתי את הגסויות וקראתי לה ‘גוגל ב-70 לשון’ – איך עושים גוגל ברחבי העולם. אני המנהלת שעוסקת בתרגום לעברית של גוגל, בשיתוף פעולה עם צוותי השיווק, היח”ץ והצוות המשפטי. הרעיון בתרגום גוגל הוא לא לתרגם אלא ליצור את אותו אפקט שקורה בשפות שונות. במדינות שהומור יותר מקובל – בישראל, במדינות הנורדיות, במדינות דוברות אנגלית – אנחנו יחסית נתרגם קרוב למקור. אם הומור נחשב מאוד לא רציני מוציאים אותו לחלוטין – כמו למשל ביפן, שם חברה מקצועית לא יכולה לצחוק איתך, אפילו כשמדובר בחברה עם המעמד המאוד מכובד ומרשים של גוגל – ביפנית לא עושים את זה. אז, למשל, כשיש תקלה וגוגל אומר “אופס, סאמת’ינג וונט רונג” – ביפנית משלשים את ההתנצלות. בסינית למשל, היינו חושבים שאין הומור אבל עושים הומור. בתאילנדית מוסיפים תואר כבוד – היי ג’ון, היי ג’ון קון. בנוסף, יש עניין סביב מה מילת פנייה – באנגלית זה ‘יו’, אבל בשפות אחרות יש כמה יו. ‘זי’ המכבד ו’דו’ היומיומי בגרמנית, למשל. בגרמנית, לקהל של לקוחות ארגוניים, משתמשים בזי, אבל למשתמש הרחב – ג’מייל, דרייב, יוטיוב, משתמשים בדו”.

מה אפשר ללמוד על האופי הישראלי, או על האופי הישראלי כפי שגוגל רואה אותו, בתרגום לעברית?
“אנחנו למשל יכולים לראות שגוגל בישראל, כמו כל מי שמנסה להתקשר עם הקהל הישראלי, צריך להיות ישיר. כשאומרים לו ‘יו מיי וונט טו קונסידר’, והתרגום המדויק לעברית הוא ‘אולי תרצה לשקול א’/ב’/ג”, הישראלי הממוצע שוקל, שוקל את השקילה, ובסוף מחליט שלא. זו הדרך לומר ‘מומלץ לעשות’. כשמתרגמים לעברית, מורידים את האובר נימוס. המשתמש הישראלי אומר ‘מה אתה רוצה שאני אעשה? תגיד לי’. אין פליז באנגלית אף פעם, אבל בחלק מהטקסטים שלנו אנחנו כן כותבים ‘נא ללחוץ על הכפתור’, כי זה מרכך. כשאומרים לישראלי ‘פתח חשבון, לחץ כאן’ – מסתכלים על ההוראה הזו ואומרים ‘למה מי אתה שתיתן הוראות’. אז במקום אנחנו כותבים ‘לפתיחת חשבון’. זה גם חלק מהניסיון לא לפנות רק לגברים. באנגלית אין ג’נדר בשפה, וגם בעברית משתדלים להתנסח באופן נייטרלי מבחינה מגדרית. אבל כשהיה, למשל, טקסט שהיה מיועד למורים בבית ספר יסודי, בחרנו דווקא לפנות לנשים כי זה 90 ומשהו אחוז”.

גוגל הגלובלית. תמונה: Jeroen Frans (cc-by-nc-sa)

גוגל הגלובלית. תמונה: Jeroen Frans (cc-by-nc-sa)

איך יודעים לקלוע לאופי? האם מדובר בתהליך של ניסוי וטעייה?
“זה יותר ניסוי ופידבק – הרבה לדבר עם הקהל שלנו ומשתמשים, יש קהילה של משתמשים שיש לנו מגע איתם. אנשי שיווק מסוגלים להביא לנו פידבק מהמשתמשים האמיתיים. יש לנו קהילה של יוצרי יוטיוב שעוזרים לנו להבין איך יוטיוב צריך להשמע בעברית. בתאילנדית, למשל, הרבה מונחים לא מתרגמים אלא מתעתקים – הרבה מהתעתיק הוא לא מדויק. למשל ‘אינבוקס’ הפך ל’אינבלוקס’, וכשגוגל נכנסה עם גוגל אינבוקס, היתה התלבטות אם להשתמש בתעתיק לא נכון או תעתיק נכון, והחליטו ללכת על התעתיק הנכון – אינבוקס. שנתיים אחר כך, התעתיק המדויק שגוגל התעקשה עליו מתפשט. אימייל בעברית היה מתורגם כדוא”ל – אף אחד לא משתמש, ואחד הדברים הראשונים שעשיתי בתפקיד זה להחליף את התרגום ל’אימייל'”.

איך הגעת לתפקיד?
“תרגמתי הרבה ספרים, הרבה מדע בדיוני ופנטזיה, כולל משחקי הכס גם, ואתה ממציא הרבה דברים במדע בדיוני ופנטזיה. לפני כמה שנים נפתח תפקיד בגוגל והגעתי אליו”.

ריקוד הנצחון של המכונה

לפני שנה פרסמתי טיפ למי שצריכים לתרגם טקסט – במקום לתרגם מאפס, להשתמש בגוגל טרנסלייט לתרגם את הטקסט המלא, ולהשתמש בתרגום המכונה כטיוטה שעל גביה עורכים ומתקנים את השגיאות. מישהו שיתף את הפוסט בקבוצת פייסבוק של מתרגמים, שקטלו את העצה שלי והסבירו שאני לא מבין כלום בתרגום.

הקוריאה טיימז מדווח כעת על תחרות תרגום שמתקיימת היום באוניברסיטת הסייבר סג’ונג שבסיאול, דרום קוריאה. כל מתחרה מקבל שני מאמרים באנגלית לתרגם לקוריאנית, ושניים בקוריאנית לאנגלית, עם 30 דקות לתרגום כל מאמר. בצד אחד של הזירה: מתרגמים אנושיים. בצד השני: הבינות המלאכותיות גוגל טרנסלייט ונאבר פפגו, שני שירותי תרגום-המכונה הפופולריים ביותר שתומכים באנגלית וקוריאנית.

שלט עברי הפוך בעיר ניס. צילום: שמוליק ליברמן

שלט עברי הפוך בוילה דה בעיר ניס. צילום: שמוליק ליברמן

“בקרב מתרגמים ומתורגמנים, ואלו ששואפים לעבוד בתחומים אלו בעתיד, מתגבר החשש שהם עלולים לאבד את מקומם לטכנולוגיות תרגום אוטומטיות מבוססות בינה מלאכותית, אשר השתפרו משמעותית”, אמר קאנג דאה-יונג, מזכ”ל IITA (ארגון דרום קוריאני ממשלתי לקידום טכנולוגיות מידע). “אף שהאירוע עשוי לא להפיג לגמרי חששות אלו, אנחנו מקווים להראות שלבני אדם ולמכונות יש חוזקות וחולשות שונים, ולהדגיש שיש צורך באנשי מקצוע בתרגום ובמתורגמנות של העתיד”.

זה הציטוט במקור באנגלית:

Human translators and interpreters and those who seek to do these jobs in the future are increasingly facing concerns that they may lose their presence as AI-based automatic translating technologies have rapidly been improved,” IITA Secretary-General Kang Dae-young said. “Though the event may not completely dispel such worries, we hope to confirm that humans and machines have different strengths and weaknesses and highlight that human professionals will still have their roles in translation and interpretation of the future.

וזה תרגומו לעברית על ידי גוגל טרנסלייט:

האדם מתרגמים ומתורגמנים לבין מי שמבקשים לעשות עבודות אלה בעתיד יותר ויותר מול חששות כי הם עלולים לאבד את נוכחותם טכנולוגיות תרגום אוטומטי מבוססי AI במהירות שופרו,” אמר IITA מזכ”ל קאנג דיי-צעירים. “למרות שהאירוע לא לגמרי להפיג דאגות כאלה, אנחנו מקווים לאשר כי בני אדם ומכונה יש עוצמות וחולשות שונות ולהאיר כי מקצוע אנושי עדיין יהיה התפקידים שלהם בתרגום ופרשנות של העתיד.

אני מאחל הצלחה לשני הצדדים.


עורכת: אחינעם קפון; טכנאי: דור אבידן; מגיש: עידו קינן; תוכנית זו שודרה ב21/2/2017. רבע לדיגיטל משודרת מדי שלישי ב-18:45 בגלצ. ארכיון רבע לדיגיטל; רסס רבע לדיגיטל; פניות לתוכנית: reva@room404.net


תגובות

6 תגובות לפוסט “השפה המופשטת מאחורי תרגום המכונה • גוגל לא נותנת לנו פקודות • מתרגמים נ’ בינות מלאכותיות » רבע לדיגיטל”

  1. אסף on 26 בפברואר, 2017 13:33

    שגיאת התרגום בכיתוב של התמונה – זה בסרקסטיות או בטעות?
    “VILLE” בצרפתית היא “עיר”. זה לא חלק מהשם של העיר.
    הכותרת של השלט היא פשוט “העיר ניס”,
    וגם אם בוחרים לכתוב תעתיק של המשפט הזה (למה?) אז בצרפתית לא מבטאים E סופית, וצריך להיות “ויל”, ולא “ווילה”.

  2. יובל on 27 בפברואר, 2017 21:05

    אני לא יודע אם זה היה בכוונה או לא, אבל Ville זה “עיר” בצרפתית. כלומר השלט הוא פשוט בניס.

  3. עידו קינן on 28 בפברואר, 2017 17:03

    למרבה המבוכה, אסף ופינטר, זו טעות תרגום שלי :/

  4. ר. on 11 במרץ, 2017 02:25

    אני רק אשים את זה פה

    http://eincyclopedia.wikia.com/wiki/מכונה_תרגום

  5. נועם on 30 במרץ, 2017 17:28

    תנסה עכשיו :)
    ״
    המתרגמים והמתורגמנים האנושיים ואלה המבקשים לבצע עבודות אלה בעתיד, מתמודדים יותר ויותר עם חשש שהם עלולים לאבד את נוכחותם, כאשר טכנולוגיות התרגום האוטומטיות מבוססות AI השתפרו במהירות “, אמר מזכ”ל IITA, Kang Dae-Young. “למרות שהאירוע לא יכול להפריך לחלוטין דאגות כאלה, אנו מקווים לאשר כי בני אדם ומכונות יש נקודות חוזק וחולשות שונים להדגיש כי אנשי מקצוע האדם עדיין יש את תפקידם בתרגום ופרשנות של העתיד.
    ״

    לא 100% אבל קרוב לזה

  6. Google's Translation Overhaul – Interview on IDF Radio | מקפים לוהטים on 17 באפריל, 2017 17:48

    […] can listen to the interview here on Kenan's blog, and read my writeup as well. Problem is, it's all in Hebrew! Well, what better […]

פרסום תגובה

עליך להתחבר כדי להגיב.