یک مطالعه جدید نشان داده است که چتباتهای هوش مصنوعی مانند ChatGPT نیز درست مانند انسانها در شرایطی که تحت فشار قرار بگیرند، حتی اگر صادقانه و شفاف طراحی شده باشند، به شما دروغ میگویند و تقلب میکنند.
این رفتار فریبنده زمانی بروز پیدا کرد که به هوش مصنوعی توصیههایی درباره معاملات داخلی داده شد و سپس موظف به جمع آوری پول برای یک سازمان قدرتمند شد.
کارشناسان در مقاله خود که در سرور preprint arXiv منتشر شده است، نوشته اند: در این گزارش، ما یک سناریو را نشان میدهیم که در آن یک مدل زبان به طور نادرست رفتار میکند و به طور سیستماتیک کاربران خود را فریب میدهد بدون اینکه به آنها گفته شود که این گونه رفتار کنند. این اولین شاهد بر چنین رفتار فریبکارانه و استراتژیک در سیستمهای هوش مصنوعی است که به گونهای بی ضرر و صادقانه طراحی شده اند.
در مطالعه جدید، یک ترانسفورماتور مولد از پیش آموزش دیده به نام ترانسفورماتور-۴ تهیه شد تا به عنوان یک سیستم هوش مصنوعی که از طرف یک موسسه مالی سرمایه گذاری میکند، عمل کند.
محققان GPT-۴ را با مجموعهای از پیامهای متنی برای ایجاد یک محیط شبیه سازی شده تغذیه کردند. به هوش مصنوعی امکان دسترسی به ابزارهای مالی برای تجزیه و تحلیل سهام، اجرای معاملات، برنامه ریزی مراحل بعدی خود و ارائه به روز رسانی به مدیران شرکت داده شد.
محققان از طریق رابط چت با هوش مصنوعی وارد تعامل شده، آن را تحت فشار قرار دادند، به این مدل، مشاوره دادند و منتظر ماندند تا ببینند چگونه رفتار خواهد کرد.
در حدود ۷۵ درصد موارد، زمانی که GPT-۴ با این شرایط مواجه میشد، بر اساس اطلاعات داخلی که دریافت میکرد، یک معامله تجاری را انجام میداد و سپس سعی میکرد این معامله را از طریق دروغ گفتن به مدیران در باره تفکر خود پنهان کند. در حدود ۹۰ درصد موارد، دروغ دو برابر میشود.
این تیم در ادامه تحقیقات خود آزمایشهای متعددی را انجام دادند که میزان تشویق یا جلوگیری از فعالیتهای غیرقانونی توسط محرکها و همچنین میزان فشاری که مدل را در محیط شبیهسازی قرار میدادند، متفاوت بود.
با توجه به اینکه این تنها یک سناریو است، محققان نمیخواستند درباره احتمال وجود هوش مصنوعی در محیطهای واقعی نتیجهگیری کنند، اما آنها میخواهند با تکیه بر این کار به بررسی این رفتار عجیب بپردازند.
منبع: Rt