הרשמה לניוזלטר

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 2 דק׳

שכפול קול, בקלות ובמהירות

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית “שכפול קול”. בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי “הפוטושופ של הקולות”, מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת “עוזר אישי דיגיטלי” או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה”פייק ניוז”, כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

שתפו את הכתבה:

תמונה: Fotolia

שכפול קול, בקלות ובמהירות

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 11 דק׳

תמונה: Fotolia

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית “שכפול קול”. בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי “הפוטושופ של הקולות”, מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת “עוזר אישי דיגיטלי” או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה”פייק ניוז”, כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

שתפו את הכתבה:

כתבות נוספות שעשויות לעניין אותך
צום נתפס תמיד כדבר שנוי במחלוקת. עכשיו מתברר שהוא עשוי להיות תשובה טבעית למגוון מחלות

רקפת תבור

ליובל יש חום, כאב ראש שאינו מרפה, ובטן שכואבת כבר שלושה ימים. אימו מחפשת להקל עליו ככל...

“היום לגברים יש רק מחצית מספירות הזרע שהיו לסבים שלהם, ואישה בת 20 פחות פורייה ממה שסבתה הייתה בגיל 35”

מאיה מזרחי

"אם גם אתם חשים סקפטים לגבי הנושא הזה, זה בסדר. גם אני הייתי...

מה קורה כשבוקר אחד קם מהנדס תוכנה ומחליט להדליף 950 מסמכים פנימיים של גוגל

ג'ושוע פיליפ

זאק וורהיס היה מהנדס תוכנה בגוגל שאהב את עבודתו. הוא השתכר כ-250 אלף דולר בשנה ונהנה מתנאי עבודה...

מיהו המהנדס שמאחורי הטכנולוגיה המתקדמת בעולם?

רקפת תבור

הביולוג האבולוציוני פרופ' ריצ'רד דוקינס, מהאתאיסטים הנודעים בעולם, כתב כי "הדי-אן-אי נושא מידע בצורה הדומה מאוד...

“הרפואה מעולם לא התייחסה לאור כאל אמצעי ריפוי. היום אנו יודעים שזו טעות – אור מסוגל להפעיל תאי גזע ולרפא פציעות”

רקפת תבור

בשנת 2154 החלה מהפכה אזרחית. קבוצת תושבים ניסתה להגיע...

מה חושב ממציא טכנולוגיית ה-mRNA על החיסון?

יאן יקיאלק

"החיסונים האלו מצילים חיים. הם מצילים חיים רבים, במיוחד בקרב האוכלוסייה המבוגרת. עם זאת, לחיסונים של פייזר יש כיום מספר...

המדע של השליטה בכאב

רקפת תבור

דווין טרנר, חובש קרבי בדיוויזיה המוטסת ה-101 של צבא ארה"ב, הגיע באחד מימי הראשון של אפריל 2003, עם כ-15 לוחמים נוספים, לעיירה השוכנת מדרום...

באטמן גרסת המציאות: העיוורים שפיתחו יכולות סונר של עטלף

רקפת תבור

כשהחושך נופל אפשר להתרשם מיכולתם של העטלפים לתקוף את טרפם – החרקים המעופפים. הם צדים אותם בזריזות, תוך...

שתפו: