این روزها ساخت کپی دیجیتالی از صدای افراد کار سختی نیست و می توان بر اساس پروفایل صوتی هر فرد، فایل صوتی سخنانی که هیچگاه بر زبان نیاورده را تولید کرد، به همین دلیل نمی شود صرفاً با شنیدن صدای یک فرد به گفته هایش اعتماد کرد. حال محققین دانشگاه واشنگتن گام را فراتر نهاده و سیستمی را ساختند که می تواند کلیپ های صوتی را به ویدیوهایی واقعی از همان فرد در حال ادای جملات تبدیل نماید.
سیستم مورد بحث برای عملکرد مطلوب، به تجزیه و تحلیل حداقل 14 ساعت ویدیو از سخنرانی فرد مورد نظر نیاز دارد، اما محققین امیدوارند این زمان را به یک ساعت کاهش دهند. آنها با بهره گیری از شبکه های عصبی، شکل کلی چهره و وضعیت لب و دهان را با نحوه بیان کلمات هماهنگ می کنند.
در نهایت، ویدیویی از سخنرانی فرد را با فایل صوتی دیگری به سیستم می دهیم تا ویدیوی نهایی از ترکیب آن دو حاصل شود. برای عملیات ترکیب، صدای ویدیوی اولیه حذف و با فایل صوتی دوم جایگزین می شود، سپس انیمیشن تولید شده از حرکات دهان روی چهره اصلی قرار می گیرد. با مشاهده ویدیوی نهایی، به سختی می توان باور کرد که فرد مورد نظر هیچگاه چنین صحبت هایی را مطرح نکرده باشد.
اگرچه به نظر می رسد تنها کاربرد این فناوری در جعل گفتار باشد، اما محققین اهداف دیگری را در سر دارند. آنها می گویند بهبود کنفرانس های ویدیویی، گفتگوی واقعی با شخصیت های تاریخی، یا شخصیت بخشی به فایل های صوتی از جمله کاربردهای این تکنولوژی هستند، و باید امیدوار باشیم که این فناوری در اختیار تبهکاران و بدخواهان قرار نگیرد.