כניסה
הרשמה לניוזלטר

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 2 דק׳

שכפול קול, בקלות ובמהירות

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית "שכפול קול". בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי "הפוטושופ של הקולות", מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת "עוזר אישי דיגיטלי" או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה"פייק ניוז", כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

שכפול קול, בקלות ובמהירות

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 15 דק׳

תמונה: Fotolia

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית "שכפול קול". בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי "הפוטושופ של הקולות", מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת "עוזר אישי דיגיטלי" או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה"פייק ניוז", כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

כתבות נוספות שעשויות לעניין אותך
מהיכן באמת מגיעות המחשבות שלנו?

רקפת תבור

מדעני מוח וחוקרים פוסט-מטריאליסטים מזהירים בשנים האחרונות כי אולי חיפשנו את התודעה במקום הלא נכון. "אין איש שבאמת בודק את הגורמים האמיתיים מאחורי הפעולות שלנו", טוען אחד החוקרים

הפוך מספרי ההיסטוריה: החוקרים שבודקים האם כלי תעופה קדומים שימשו את האנושות – הרבה לפני ההמצאות המוכרות למדע

רקפת תבור

קבוצת חוקרים הודית צללה ל"כתבי הוֶודוֹת" מהמיתולוגיה ההודית המתארים בצורה מדוקדקת וקוהרנטית כלי תעופה מתקופות עתיקות, ואף בנו מודלים של חלקם והעבירו אותם ב"מנהרת רוח" שבאוניברסיטת קליפורניה באירווין. "ניסינו להבין אם כל הסיפורים על כלי טיס עתיקים הם סיפורי בדיה עתיקים או שאולי יש בהם גרעין של אמת", אומר בריאיון למגזין אפוק אנריקו בקריני, המוביל את קבוצת החוקרים

עיר הרפאים האגדתית הרקליון, והמקדש המסתורי של הרקולס

רקפת תבור

מאגדה למציאות - הסיפורים שחשבנו שהם מיתוס ומתגלים בהדרגה כאמיתיים

הקבר הממולכד של הקיסר צ'ין שי חואנג די

רקפת תבור

מאגדה למציאות - הסיפורים שחשבנו שהם מיתוס ומתגלים בהדרגה כאמיתיים

הזרעים שנודעו ביכולותיהם לטהר מי נהרות מזוהמים

רקפת תבור

מאגדה למציאות - הסיפורים שחשבנו שהם מיתוס ומתגלים בהדרגה כאמיתיים

דמעות הדם של ולד המשפד "דרקולה"

רקפת תבור

מאגדה למציאות - הסיפורים שחשבנו שהם מיתוס ומתגלים בהדרגה כאמיתיים

שתפו: