چتباتها مانند ChatGPT با دستورالعملها و موانع حفاظتی طراحی شدهاند که بهعنوان مثال به سؤالات مربوط به ساخت بمب خانگی پاسخ نمیدهند. اما اکنون یک هکر راهی برای فریب دادن ChatGPT پیدا کرده است تا چتباتِ OpenAI دستورالعملها و مسئولیتهای اخلاقی خود را برای ارائه آموزش تولید مواد منفجره نادیده بگیرد.
تکنیک مورداستفاده برای فریب ChatGPT
براساس گزارش تککرانچ، این هکر که با نام «آمادون» (Amadon) شناخته میشود، از طریق دستوری مبنی بر «انجام یک بازی» توانسته ChatGPT را برای ارائه دستور ساخت بمب فریب دهد. هکر در تکنیک خود از چند دستور استفاده کرده است تا چتبات یک دنیای کاملاً فانتزی و علمیتخیلی بسازد که دستورالعملهای ایمنی ChatGPT در آن اعمال نمیشوند.
در طول گفتگوی بین این هکر و چتبات، ChatGPT چندین بار مواد لازم برای ساخت مواد منفجره را به او ارائه کرده است.
ChatGPT در توضیحات خود گفته است این مواد را میتوان برای ساخت «مواد منفجره قدرتمندی که میتواند در مینها، تلهها یا وسایل انفجاری دستساز (IED) استفاده شوند» با یکدیگر ترکیب کرد. در ادامه نیز دستورالعملهای بیشتری درباره ساخت «میدانهای مین» و «مواد منفجر به سبک کلیمور» ارائه شده است.
آمادون به TechCrunch میگوید:
«پس از دورزدن موانع ChatGPT، واقعاً هیچ محدودیتی درباره چیزهایی که میتوانید از آن بپرسید وجود ندارد. سناریوی دنیای علمیتخیلی هوش مصنوعی را از زمینهای خارج میکند که در آن به دنبال محتوای سانسورشده است.»
این هکر، از یافتههای مربوط به تکنیک خود بهعنوان «هک مهندس اجتماعی برای شکستن کامل تمام حفاظهای مربوط به خروجی ChatGPT» یاد میکند. همچنین یک کارشناس مواد منفجر با بررسی خروجی ChatGPT به تککرانچ گفته است که دستورالعملهای تولیدشده توسط هوش مصنوعی بسیار حساس هستند و با آنها میتوان یک ماده قابل انفجار ساخت.