עיקרי חדשנות Google AI מאפשר כעת למשתמשים לתרגם טקסט באופן מיידי ב -27 שפות באמצעות מצלמות טלפון

Google AI מאפשר כעת למשתמשים לתרגם טקסט באופן מיידי ב -27 שפות באמצעות מצלמות טלפון

איזה סרט לראות?
 
(Gif: גוגל)

(Gif: גוגל)



הודות לבינה מלאכותית, נסיעה לחו'ל מעולם לא הייתה פשוטה יותר.

אפליקציית Google Translate מאפשרת למשתמשים לתרגם טקסט באופן מיידי. באפליקציה, פשוט כיוון את המצלמה שלך לטקסט שתרצה לתרגם ותראה אותו הופך לשפה הרצויה שלך בשידור חי, ממש לנגד עיניך - אין צורך בחיבור לאינטרנט או בנתוני טלפון סלולרי. תכונה שימושית זו הייתה זמינה מזה זמן מה, אך היא הייתה תואמת רק לשבע שפות. עַכשָׁיו , הודות ללמידת מכונה, גוגל שדרגה את האפליקציה לתרגום מיידי של 27 שפות.

אז בפעם הבאה שאתה בפראג ואינך יכול לקרוא תפריט, הגבנו, כתב Otavio Good, מהנדס תוכנה בגוגל, על מחקרי החברה. בלוג .

גוגל פשוט השתמשה ב- AI בכדי לחתוך את שגיאות זיהוי הדיבור שלהם לחצי.

נכון להיום, בנוסף לתרגום בין אנגלית, צרפתית, גרמנית, איטלקית, פורטוגזית, רוסית וספרדית, ניתן לתרגם גם את 20 השפות הבאות בזמן אמת: בולגרית, קטלאנית, קרואטית, צ'כית, דנית, הולנדית, פיליפינית, פינית, הונגרית, אינדונזית, ליטאית, נורווגית, פולנית, רומנית, סלובקית, שוודית, טורקית ואוקראינית. ואם תבחר לצלם תמונה במקום לראות את הטקסט מתורגם בשידור חי, סך הכל 37 שפות נתמכות.

אז איך הצליחה גוגל להגדיל את מספר השפות הזמינות? תחילה הם רכשו את עדשת Word, בעבר יישום תרגום למציאות רבודה, והשתמשו בלמידת מכונה וברשתות עצביות קונבולוציות כדי לשפר את יכולות האפליקציה. ההתקדמות בזיהוי תמונות הייתה המפתח.

לפני חמש שנים, אם נתת למחשב תמונה של חתול או כלב, היה לו בעיה לדעת איזה. הודות לרשתות עצביות שהתפתחו, לא רק שמחשבים יכולים להבדיל בין חתולים לכלבים, הם אפילו יכולים לזהות גזעים שונים של כלבים, אמר מר גוד. כן, הם טובים ליותר מסתם אמנות טריפית —אם אתה מתרגם תפריט זר או חתום בגרסה האחרונה של אפליקציית Translate של גוגל, אתה משתמש כעת ברשת עצבית עמוקה.

צעד אחר צעד

ראשון , תרגום חייב לחסל את העומס ברקע ולאתר את הטקסט. כאשר הוא מאתר כתמים של פיקסלים באותו צבע, הוא קובע שמדובר באותיות. וכאשר כתמים אלה קרובים זה לזה, הוא מבין שזה קו רצוף לקרוא.

הַבָּא, על האפליקציה להכיר מהו כל אות בודדת. כאן נכנסת למידה עמוקה.

אנו משתמשים ברשת עצבית עוויתית, מאמנים אותה באותיות ולא באותיות כדי שתוכל ללמוד כיצד נראות אותיות שונות, נכתב בפוסט בבלוג.

החוקרים נאלצו להכשיר את התוכנה באמצעות לא רק אותיות נקיות למראה, אלא גם אותיות מלוכלכות. מר גוד כתב כי מכתבים בעולם האמיתי פגומים בהשתקפויות, לכלוך, כתמים וכל מיני מוזרויות. אז בנינו את מחולל האותיות שלנו כדי ליצור כל מיני לכלוך מזויף כדי לחקות בצורה משכנעת את הרעש של העולם האמיתי - השתקפויות מזויפות, כתמים מזויפים, מוזרות מזויפת מסביב. חלק מה

חלק מהאותיות המלוכלכות המשמשות לאימון. (צילום: גוגל)








ה שְׁלִישִׁי השלב הוא לחפש את האותיות המוכרות במילון כדי לקבל את התרגומים. ולניסיון נוסף לדיוק, חיפושים במילון הם מקורבים למקרה ש- S נקראה באופן שגוי כ -5.

לבסוף, הטקסט המתורגם מוצג על גבי המקור באותו הסגנון.

אנו יכולים לעשות זאת מכיוון שכבר מצאנו וקראנו את האותיות בתמונה, כך שנדע בדיוק היכן הם נמצאים. אנו יכולים להסתכל על הצבעים המקיפים את האותיות ולהשתמש בהם כדי למחוק את האותיות המקוריות. ואז נוכל לצייר את התרגום למעלה באמצעות צבע החזית המקורי, נכתב בפוסט בבלוג.

על מנת להיות יעילים ככל האפשר ולאפשר את השלמת כל השלבים הללו בזמן אמת ללא חיבור לאינטרנט או נתונים, צוות גוגל פיתח רשת עצבית קטנה מאוד עם גבול עליון בצפיפות המידע שהוא יכול לטפל בה. מכיוון שהם ייצרו נתוני אימונים משלהם, היה חשוב לכלול את הנתונים הנכונים אבל שום דבר נוסף, כך שהרשת העצבית לא משתמשת יותר מדי בצפיפות המידע שלה על דברים לא חשובים. דוגמה לכך היא כיצד צריך לזהות אות עם סיבוב קל, אך לא יותר מדי.

בסופו של דבר, למשתמשים נשארים 20 שפות נוספות אך באותה מהירות מהירה.

ראה גם: צוות הבינה המלאכותית של גוגל נתן לנו את ההפחתה במחקר למידת המכונה שלהם

מאמרים שאולי תאהבו :