بله تکنولوژی دیپ فیک (جعل عمیق) می تواند حرف را در دهان شما بگذارد، می پرسید چگونه؟ تصور کنید زنی به دوربین نگاه میکند و می گوید: « دانش یک چیز است و بصیرت چیز دیگر.» سپس ادامه می دهد: «دانش همان بصیرت است».

یک نفر با یک صدا دو چیز متضاد با هم می گوید. اما او تنها اولین جمله را واقعا بیان کرده بود. جمله ی دوم نتیجه ی عملکرد سیستمی هوشمند است که صدای زن در جمله ی اول را برداشته و به یک فیلم تبدیل کرده است. این سیستم به نام تکنولوژی دیپ فیک (جعل عمیق) شناخته می شود.



کمپانی های همکار در این پروژه

محققان در دانشگاه تکنولوژی نانیانگ سنگاپور،  آزمایشگاه تشخیص ریتم صوتی در چین و کمپانی برنامه نویس هوش مصنوعی «سنس تایم» راهی را پیدا کردند که صدا را تقلید می کند.

در واقع، هوش مصنوعی صدا را از کلیپی در حال پخش می گیرد و فیلم کسی دیگر که در حال صحبت کردن است را آنالیز می کند و در نهایت تلفیقی از صدای کلیپ اول و فیلم کلیپ دوم را ارائه می دهد.

در حالیکه به نظر میرسد فرد موجود در فیلم کلیپ دوم حرفهای فرد موجود در کلیپ اول را گفته است. فرد موجود در کلیپ دوم مانند عروسکی می شود که حرف های فرد موجود در کلیپ اول را ادا می کند.

این پروسه چگونه انجام می شود؟

به این منظور، محققان ابتدا مدلی سه بعدی از چهره ی فرد را در کلیپ دوم می سازند.

بر اساس گزارش منتشر شده در مجله آرکسیو، «همه صحبت میکنند: بزار من اونجوری که تو می خوای حرف بزنم»، برای هر فریم طرح سه بعدی جداگانه ای ساخته می شود تا حدود صورت، حالات صورت، و حس های موجود در آن کپی شوند.

از اینجای کار به بعد بعضی از قسمت های صورت به صورت دو بعدی علامت گذاری می شوند به خصوص قسمت های از صورت که مربوط به حرکات دهان هستند.

با این روش به جای کپی کردن الگوریتم کل صفحه، تنها حرکات صورت کپی شده و باقی صفحه به همان شکل ثابت می ماند.

در مرحله ی بعدی مدل تور مانند سه بعدی ساخته می شود تا حرکات لب با توجه به صدای مبدا در آن کپی شود.

نتایج طبیعی به دست آمده با این تکنولوژی

محققان گفته اند نتایج این روش بسیار گول زننده است. در مقایسه با سایر روش های تقلید مانند فیس تو فیس که در سال 2016 ساخته شد و « سینتسایزینگ اوباما» که در سال 2017 ساخته شد، نتایج طبیعی تر هستند و با چشم غیر مسلح بسیار عادی به نظر می رسند.

در آزمایشی که بر روی 100 شرکت کننده داوطلب انجام شد 55% از فیلم های ساخته شده به نظر شرکت کنندگان کاملا طبیعی به نظر رسید.

محققان بیان کرده اند که این روش اولین روش ویرایش هوشمند است. اگر میخواهید صدایتان تقلید شود و می ترسید تا برنامه ای موجب غیر واقعی بودنش شود، به سراغ این برنامه بروید.

به یاد مثال صدای تقلید شده ی مارک زاکربرگ بیفتید که صدای گذاشته شده بر روی آن به شکل خنده داری غیر واقعی به نظر می رسید.

سال ها هدف محققان پیشرفت تکنولوژی هوش مصنوعی در زمینه تقلید بود. صداهایی که بر اساس الگوریتم صدای مبدا تولید می شوند و بر روی ویدیو قرار می گیرند، بسیار واقعی به نظر می رسند.

صدای تقلید شده ای از جردن پترسون منتشر شد و اینقدر واقعی به نظر می رسید که خود پترسون، سازنده اش را تهدید به شکایت کرد.

به دلیل اینکه این روش از صدای واقعی خود شخص برای تقلید استفاده می کند، و با استفاده از آوا ها هر کلمه ای که دلتان بخواهد برایتان می گوید، قدمی بلند است در راستای پیشرفت تکنولوژی تقلید.

ابلاغیه رسمی در خصوص برنامه deep fake

در روز پنجشنبه، سازمان مربوط به محققان اتمی در ابلاغیه ای رسمی اعلام کرد که ساخت برنامه های مانند این یکی از دلایل ما برا رسیدن به آخر دنیاست چرا که این برنامه ها توانایی شهروندان در شناسایی درست از غلط و راست از دورغ را زیر سوال می برند.

در نظر داشته باشید که برای تکنولوژی هوش مصنوعی امروز شناسایی دروغ از واقعیت اهمیت کمی دارد.

برای مثال کمپانی سنس تایم که یکی از کمپانی های تولید کننده این برنامه است اخیرا به دولت چین در شناسایی و زیر نظر گرفتن گروه اقلیتی مسلمانان کمک کرده است.

در این گزارش هم محققان به مضراتی که چنین برنامه های تقلید صدایی ممکن است به جوامع وارد کنند آگاه هستند.

« ما به خوبی آگاهیم که چنین تکنولوژی ممکن است پتانسیل لازم برای انواع و اقسام سوئ استفاده ها را داشته باشد.

برای مثال رسانه ها و تبلیغات به راحتی از این برنامه استفاده می کنند. بر همین اساس، به شدت از امنیت این برنامه علیه چنین استفاده هایی حمایت می کنیم.

ما در حال حاضر در حال کار کردن بر روی چنین مسایلی هستیم و هرگز خواسته ی اشخاص خاص را به مصلحت کل جامعه ترجیح نمی دهیم».

در ادامه بخوانید: