כניסה
הרשמה לניוזלטר

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 2 דק׳

שכפול קול, בקלות ובמהירות

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית "שכפול קול". בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי "הפוטושופ של הקולות", מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת "עוזר אישי דיגיטלי" או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה"פייק ניוז", כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

מעורר מחשבה? לתגובות ומחשבות ניתן לכתוב לנו ל:
לחץ כאן

תמונה: Fotolia

שכפול קול, בקלות ובמהירות

טכנולוגיה חדשה מאפשרת לחקות קולות אנושיים לאחר האזנה של שניות ספורות

רקפת תבור | 1 באפריל 2018 | מדע וטכנולוגיה | 18 דק׳

תמונה: Fotolia

באידו, חברת הענק הסינית, המוכרת בעיקר הודות למנוע החיפוש שלה – התחליף הסיני למנוע של גוגל, עובדת במרץ על טכנולוגיית "שכפול קול". בתחילת 2017 היא דיווחה ש-Deep Voice, תוכנת בינה מלאכותית שהיא מפתחת, מסוגלת לחקות קולות אנושיים לאחר שהיא מאזינה להם במשך כמה שעות.

מאז, התוכנה של באידו משתפרת בקצב מסחרר. הגרסה שפורסמה במאי 2017, 2Deep Voice, דורשת רק חצי שעה של האזנה לקול מסוים כדי שתוכל לחקות אותו ביעילות, והיא יודעת לעבד מאות מבטאים שונים, למשל להשמיע את קולו של דונלד טראמפ במבטא בריטי. גרסה מתקדמת יותר, ששוחררה באוקטובר 2017, כבר יודעת ללמוד לחקות את קולותיהם של 2,500 אנשים שונים בו זמנית.

באמצע פברואר 2018, צוות המחקר והפיתוח של באידו פרסם מאמר מפורט המתאר את הטכנולוגיה שמאחורי המערכת, ואת הפיתוחים האחרונים שלה. מתברר שגרסתה הנוכחית זקוקה לשניות ספורות של נתונים מקולו של מישהו כדי להצליח לחקות אותו ביעילות. שדרוגים נוספים מאפשרים למערכת להמיר קול נשי לגברי ולהיפך ולשחק עם המבטא של הדובר.

אמנם המערכת אינה מושלמת עדיין, וניתן מדי פעם להבחין בסגנון דיבור מעט רובוטי שלה, אך לאור ההתקדמות המהירה שלה במהלך השנה האחרונה, ובהתחשב בעובדה שלפני קצת יותר משנה הדברים האלו כלל לא התאפשרו, כנראה שתכנית הבינה המלאכותית תמשיך להתקדם ולהשתדרג במהירות ותסגור את הפערים תוך זמן לא רב.

למעשה באידו אינה השחקנית היחידה בזירה. תוכנת VoCo של אדובי, שקיבלה גם את הכינוי "הפוטושופ של הקולות", מסוגלת לחקות קולות לאחר שהיא מאזינה להם במשך 20 דקות. הסטארט אפ הקנדי Lyrebird מסוגל לחקות קולות אחרי שהוא מאזין להם במשך דקה בלבד. וגם גוגל משתתפת במרוץ, כשהיא מקדמת את תוכנת הבינה המלאכותית WaveNet כדי שתשולב בעוזר האישי שגוגל מפתחת ותאפשר לו להישמע טוב הרבה יותר.

מערכת כזו תאפשר לאנשים שאיבדו את קולם להשמיע אותו, כל עוד המערכת שמעה אותם מבעוד מועד. היא גם תוכל לעזור לפתח יישומים כדוגמת "עוזר אישי דיגיטלי" או תוכנות תרגום אוטומטיות כך שיישמעו זורמים ונעימים לאוזן הרבה יותר.

אבל, בעידן ה"פייק ניוז", כשכבר קל כל כך ליצור סרטונים בהם פניו של אדם אחד מוצמדות לגוף של מישהו אחר, או כשכבר ניתן בקלות ליצור סרטונים משכנעים שמראים אנשים אומרים דברים שמעולם לא אמרו, מה יקרה כשטכנולוגיה כזו תשמש כדי להפיץ מידע שקרי וחדשות כוזבות? האם מעכשיו כל אחד מאתנו יוכל ליצור ציטוטים משכנעים וכוזבים של כל אדם שהוא?

מעורר מחשבה? לתגובות ומחשבות ניתן לכתוב לנו ל:
לחץ כאן

כתבות נוספות שעשויות לעניין אותך
האם בעתיד נוכל להרוג תאים סרטניים באמצעות מוסיקה קלאסית?

רקפת תבור

"נראה שצלילים שונים משפיעים על צמיחתם או על מותם של תאים", אומרים חוקרים מאוניברסיטת פדובה באיטליה, והם לא לבד – עוד ועוד חוקרים מתעניינים בהשפעה שיש...

מנהל את העולם רק באמצעות תנועות עיניים

בן קמינסקי

שי ראשוני, מנהל עמותת פרס לחיים, יכול רק להזיז את העיניים אבל הוא לא צריך יותר מזה כדי לשנות את העולם הוא מצליח לתת לאנשים השראה, לרתום את טובי המוחות, ולנהל מגוון יוזמות פורצות...

שיחה עם פסיכולוג, ממוחשב

ליאור גזית

האם גם את הפסיכולוגים שלנו יחליפו בעתיד הלא רחוק תוכנות בינה מלאכותית התוכנות הראשונות כבר...

מה אנו לא יודעים על השדה המגנטי של כדור הארץ

רקפת תבור

בשנים האחרונות משהו משתבש בשדה המגנטי של כדור הארץ. בעיקר בקוטב הצפוני המגנטי – אותה נקודה שאליה מצביעים המצפנים. מתברר שמאז שנות ה-90 הנקודה הזו נעה בקצב...

מהארכיון: מגע הראי של ד"ר סלינאס

דינה גורדון

ד"ר ג'ואל סלינאס, נוירולוג בחדר טראומה, אינו אדם רגיל הוא חש בגופו את הכאב והרגשות של אנשים שהוא רואה כשלמטופל נקטעת יד הוא מאבד תחושה בידו שלו, וכשאישה מתאבלת על בנה הוא חש צער עמוק כאילו...

"הרפואה מעולם לא התייחסה לאור כאל אמצעי ריפוי. היום אנו יודעים שזו טעות – אור מסוגל להפעיל תאי גזע ולרפא פציעות"

רקפת תבור

פרופ' פראבין אראני לא האמין...

שתפו: