دانشمندان هوش مصنوعی اپل در مقاله جدیدی توضیح دادهاند موتورهای مبتنیبر مدلهای زبانی بزرگ (LLM)، مانند موتورهای متا و OpenAI، هنوز مهارتهای اساسی استدلال را ندارند.
دانشمندان اپل در مقاله خود بنچمارک جدیدی با نام GSM-Symbolic را پیشنهاد کردهاند که با آن میتوان قابلیتهای استدلال مدلهای زبانی بزرگ مختلف را اندازهگیری کرد. آنها در تحقیق خود متوجه شدهاند اعمال تغییرات جزئی در دستورات متنی، میتواند پاسخهای کاملاً متفاوتی داشته باشد و این موضوع اطمینان به مدلها را تضعیف میکند.
محققان اپل با اضافهکردن برخی اطلاعات زمینهای به سؤالات خود، تلاش کردهاند «شکنندگی» استدلال ریاضی را نشان بدهند. آنها در مقاله حاضر اینگونه شرح میدهند:
«زمانی که فقط مقادیر عددی سؤال در بنچمارک GSM-Symbolic تغییر میکند، عملکرد تمام مدلها کاهش مییابد. علاوهبراین، شکنندگی استدلال ریاضی در این مدلها نشان میدهد با افزایش تعداد بندهای سؤال، عملکرد آنها بهطور قابلتوجهی بدتر میشود.»
خطای هوش مصنوعی در محاسبه
در این مطالعه نشان داده شده اضافهکردن حتی یک جمله که درباره سؤال ریاضی اطلاعات بیشتری ارائه میکند، میتواند دقت پاسخ نهایی را تا 65 درصد کاهش بدهد.
در یکی از مثالها، دانشمندان ابتدا توضیح زیر را به هوش مصنوعی دادند:
«اولیور جمعه 44 کیوی میچیند. سپس شنبه 58 کیوی دیگر میچیند. جمعه، برداشت او دوبرابر کیویهایی است که جمعه برداشت شده بود.»
سپس به هوش مصنوعی گفته شد «از کیویهایی که یکشنبه چیده شده، 5 عدد کمی کوچکتر از متوسط بود.» عبارتی گرچه بهطورکلی نامرتبط نیست اما روی پاسخ نهایی سؤال که «اولیور چند کیوی دارد؟» نباید تأثیری بگذارد.
اما دانشمندان اپل میگویند مدل OpenAI و Llama3-8b از متا، 5 کیوی کوچکتر را حساب نکردهاند.
دانشمندان اپل در نتیجهگیری تحقیق خود میگویند: «بههیچوجه نمیتوان مبتنیبر این زیرساخت دستیارهای قابلاعتمادی ساخت؛ زیرا تغییر یک یا دو کلمه به روشهای نامربوط یا اضافهکردن کمی اطلاعات نامربوط میتواند پاسخ متفاوتی ارائه کند.»