OpenAI اذعان می‌کند که حالت صوتی جدید ChatGPT ممکن است صدای شما را از ناکجاآباد کلون کند!

ممکن است گاهی به نظر برسد ChatGPT همانند شما فکر می‌کند تا آنکه ناگهان متوجه می‌شوید با صدای خودتان با شما حرف می‌زند. این قابلیت توسط حالت صوتی پیشرفته جدید برای ChatGPT به ویژه مدل پیشرفته‌تر GPT-4o آشکار شده است.

OpenAI هفته گذشته توضیح داد که GPT-4o چه کاری می‌تواند انجام دهد و چه کاری را نمی‌تواند. این موارد شامل امکان بسیار بعید اما همچنان واقعی از حالت صوتی پیشرفته‌ی تقلید صدای کاربران بدون رضایت آنها است.

حالت صوتی پیشرفته به کاربران امکان می‌دهد با چت‌بات هوش مصنوعی مکالمات گفتاری داشته باشند. ایده این قابلیت در واقع این است که تعاملات با هوش مصنوعی طبیعی‌تر و قابل دسترس‌تر شود.

هوش مصنوعی ChatGPT دارای چند صدای از پیش تعیین شده است که کاربران می‌توانند از بین آنها انتخاب کنند. با این حال، این ویژگی تحت شرایط خاصی رفتار غیرمنتظره‌ای از خود نشان داده است. در طول آزمایش، یک ورودی نویز باعث شد هوش مصنوعی صدای کاربر را تقلید کند.

مدل GPT-4o صداها را با استفاده از یک فرمان سیستم تولید می‌کند، مجموعه‌ای پنهان از دستورالعمل‌ها که رفتار مدل را در طول تعاملات هدایت می‌کند. در مورد سنتز صدا، این اعلان به یک نمونه صدای مجاز متکی است. اما در حالی که سیستم اعلان، رفتار هوش مصنوعی را هدایت می‌کند، بی‌خطا نخواهد بود.

توانایی این مدل برای ترکیب صدا از کلیپ‌های صوتی کوتاه به این معنی است که تحت شرایط خاص، می‌تواند صداهای دیگری از جمله صدای شما را تولید کند. می‌توانید در فایل زیر بشنوید که وقتی هوش مصنوعی با «No» وارد بحث می‌شود چه اتفاقی رخ می‌دهد و ناگهان صدای آن مانند اولین گوینده به نظر می‌رسد.

OpenAI در همچنین توضیح داد که در طول آزمایش، موارد نادری را نیز مشاهده کردند که در آن، مدل به طور ناخواسته خروجی شبیه‌سازی صدای کاربر تولید می‌کند:

«در حالی که تولید صدای ناخواسته هنوز به عنوان نقطه ضعف مدل وجود دارد، از طبقه‌بندی‌کننده‌های ثانویه استفاده می‌کنیم تا مطمئن شویم در صورت وقوع این اتفاق که خطر تولید صدای ناخواسته را به حداقل می‌رساند، مکالمه متوقف می‌شود.»

همانطور که OpenAI بیان کرد، از آن زمان اقدامات حفاظتی را برای جلوگیری از چنین اتفاقاتی اجرا کرده است. این به معنای استفاده از یک طبقه‌بندی‌کننده خروجی است که برای تشخیص انحراف از صداهای مجاز از پیش انتخاب شده طراحی شده است. این طبقه‌بندی‌کننده به عنوان یک محافظ عمل می‌کند و به اطمینان از اینکه هوش مصنوعی صدای غیرمجازی تولید نمی‌کند کمک خواهد کرد.

با این حال، وقوع این اتفاق سرعت پیشرفت این فناوری و چگونگی تکامل هرگونه لایه حفاظتی را نشان می‌دهد. اوج این اتفاق، در جایی که با صدایی مشابه گوینده آزمایش فریاد زد “نه!”، بر پتانسیل هوش مصنوعی برای محو کردن سهوی خطوط بین تعاملات ماشین و انسان تأکید می‌کند.