כניסה
הרשמה לניוזלטר

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 2 דק׳

שכפול קול, בקלות ובמהירות

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית "שכפול קול". בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי "הפוטושופ של הקולות", מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת "עוזר אישי דיגיטלי" או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה"פייק ניוז", כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

שתפו את הכתבה:

שכפול קול, בקלות ובמהירות

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 15 דק׳

תמונה: Fotolia

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית "שכפול קול". בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי "הפוטושופ של הקולות", מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת "עוזר אישי דיגיטלי" או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה"פייק ניוז", כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

שתפו את הכתבה:

כתבות נוספות שעשויות לעניין אותך
הוא נחשב לגאון מתמטי. הבעיה היחידה: כמעט ואין לו מוח

רקפת תבור

מכשיר ה-CT שפותח בראשית שנות ה-70 של המאה הקודמת, אפשר לחוקרים לסרוק את המוח וחולל מהפכה במדע. הגילויים החדשים היו כה...

"איפה אין פרסומות? בחלומות". אז זהו, כבר יש

רקפת תבור

כשנדיר האקרמן, יזם ההייטק הישראלי ומייסד חברת וובוס (WEBOS), נדרש להציג למשקיעים היפנים את המוצר החדש שעליו עובדת...

ההוביטים – דמויות בדיוניות או מין אנושי חי וקיים?

רקפת תבור

המפגש המפתיע אירע לקראת סוף שנות ה-90 באי פלורס שבדרום אינדונזיה – הנמצא לא הרחק מחופיה הצפוניים של אוסטרליה. בארה,...

מדוע מדענים בנאס"א רוצים לשלוח לחוצנים מסר הכולל את מבנה הדי-אן-אי שלנו?

מאיה מזרחי

אם הייתה לכם הזדמנות לתקשר עם חייזרים, מה הייתם אומרים להם? האם הייתם מנסים להתחבב עליהם או...

"מצאנו שיותר מרבע מהבחירות הלאומיות במדינות שונות בעולם הוכרעו על ידי אלגוריתם החיפוש של גוגל. זו עובדה מפחידה"

יאן יקיאלק

ד"ר רוברט אפשטיין, פסיכולוג בכיר ב"מכון האמריקני...

"אתם מה שאתם אוכלים": כיצד מזון יכול להשפיע על המנגנון הגנטי שלנו

רקפת תבור

ברבדוס הוא אי במזרח הקריביים שאוכלוסייתו מתמודדת עם נטייה להשמנה ובעבר התמודדה גם עם רעב. ב-1967...

תמיד חשבנו שאנחנו רואים במדויק את המציאות העכשווית – חוקרי מוח טוענים שהטעו אותנו

רקפת תבור

בשנת 1996 ניתנה לשחקן הפוטבול ארני מילס הזדמנות לנצח משחק בליגת ה-NFL עבור קבוצתו...

"אנחנו עומדים מול משהו ממכר מאוד שסוגר עלינו מכל הכיוונים"

רקפת תבור

כבר מכיתה א' התקשה מתנאל לשבת בשקט במהלך יום הלימודים. בהמשך החלו המורים גם להתלונן שהוא אגרסיבי ומפריע....

שתפו: