انویدیا خانواده مدلهای هوش مصنوعی منبعباز و قدرتمند NVLM 1.0 خود را منتشر کرده است که با مدلهای ساختهشده توسط OpenAI و گوگل رقابت میکند. عضو اصلی این خانواده از مدلهای زبانی چندوجهی بزرگ با عنوان NVLM-D-72B دارای 72 میلیارد پارامتر است و در وظایف بینایی و زبانی عملکرد استثنایی ارائه میکند و قابلیتهای متنی آن نیز افزایش یافته است.
محققان انویدیا در مقاله خود توضیح میدهند:
«ما NVLM 1.0 را معرفی میکنیم، خانوادهای از مدلهای زبانی بزرگ چندوجهی که در وظایف بینایی به نتایج پیشرفتهای دست پیدا میکنند و با مدلهای پیشرو (مانند GPT-4o) و مدلهای قابلدسترس دیگر رقابت میکند.»
قابلیتهای مدل هوش مصنوعی جدید انویدیا
طبق گزارشهای منتشرشده، مدل NVLM-D-72B، انطباقپذیری بسیار خوبی در پردازش ورودیهای بصری و متنی پیچیده نشان داده است. در مقاله انویدیا نمونههایی ارائهشده که توانایی مدل در تفسیر میمها، تجزیهوتحلیل تصاویر و حل مرحلهبهمرحله مسائل ریاضی را نشان میدهد.
علاوهبراین، عملکرد مدل در زمینه وظایف متنی نیز بهبود یافته است. در واقع دقت NVLM-D-72B در این زمینه بهطور میانگین در بنچمارکهای کلیدی 4.3 امتیاز ارتقا پیدا کرده است.
انویدیا با انتشار عمومی این مدل و وعده انتشار کد آموزشی آن، ظاهراً قصد دارد از روند بسته نگهداشتن سیستمهای هوش مصنوعی پیشرفته فاصله بگیرد. تصمیمی که باعث میشود محققان و توسعهدهندگان به فناوریهای پیشرفته دسترسی داشته باشند و تحقیقوتوسعه در زمینه هوش مصنوعی را تسریع میکند.
علاوهبراین، پروژه NVLM شامل طرحهای معماری نوآورانهای میشود، ازجمله رویکردی ترکیبی که تکنیکهای مختلف پردازش چندوجهی را ترکیب میکند. چنین پیشرفتی میتواند مسیر تحقیقات آینده را شکل بدهد.
نتایج بنچمارک مدل NVLM-D در برابر مدلهای دیگری مانند GPT-4 و Llama 3-V
جامعه هوش مصنوعی نیز بهطورکلی واکنش مثبتی به مدل هوش مصنوعی جدید انویدیا نشان داده است. یکی از محققان هوش مصنوعی در شبکه اجتماعی ایکس میگوید:
«انویدیا بهتازگی مدل 72B را منتشر کرده که در ریاضی و کدنویسی با لاما 405B 3.1 برابری میکند و قابلیتهای بینایی دارد.»
بااینحال، انتشار عمومی NVLM 1.0 خطرات خاص خودش را دارد. با دسترسی به مدلهای هوش مصنوعی قدرتمند، احتمالاً نگرانیها درباره سوءاستفاده از آنها بیشتر میشود.