به گزارش خبرگزاری ایمنا و به نقل از بلومبرگ، دیپسیک که با مدل استدلالی کمهزینهاش در ژانویه بازارها را تحت تأثیر قرار داد، با محققان این دانشگاه در پکن بر روی یک مقاله تحقیقاتی کار کرده است که رویکرد جدیدی به یادگیری تقویتی ارائه میدهد، این روش جدید به مدلهای هوش مصنوعی کمک میکند تا با ارائه پاداش برای پاسخهای دقیقتر و قابلفهمتر، بهتر به ترجیحات انسانی پایبند باشند.
یادگیری تقویتی در تسریع وظایف هوش مصنوعی در کاربردهای خاص مؤثر بوده است، اما گسترش آن به کاربردهای عمومیتر چالشبرانگیز بوده است. تیم دیپسیک در تلاش است تا با استفاده از روشی به نام تنظیم انتقادی خوداصولی این مشکل را حل کند. این استراتژی در مقایسه با روشها و مدلهای موجود در معیارهای مختلف عملکرد بهتری نشان داده و نتایج نشاندهنده عملکرد بهتر با منابع محاسباتی کمتر است.
دیپسیک این مدلهای جدید را «DeepSeek-GRM» نامیده است که مخفف مدلسازی پاداش عمومی است و اعلام کرده که این مدلها به صورت متنباز منتشر خواهند شد، سایر توسعهدهندگان هوش مصنوعی، از جمله غول فناوری چینی علیبابا و OpenAI مستقر در سانفرانسیسکو، نیز در حال پیشرفت به سمت مرزهای جدیدی در بهبود استدلال و قابلیتهای خوداصلاحی در حین انجام وظایف در زمان واقعی هستند.
شرکت متا پلتفرمز مستقر در کالیفرنیا، آخرین خانواده مدلهای هوش مصنوعی خود، Llama 4، را در آخر هفته منتشر کرد و آنها را به عنوان اولین مدلهایی که از معماری Mixture of Experts (MoE) استفاده میکنند، معرفی کرد، مدلهای دیپسیک به طور قابل توجهی به MoE وابسته هستند تا از منابع به طور مؤثرتری استفاده کنند و متا عملکرد جدید خود را در برابر این استارتاپ مستقر در هانگژو ارزیابی کرده است، دیپسیک هنوز مشخص نکرده است که چه زمانی ممکن است مدل پرچمدار بعدی خود را منتشر کند.
این پیشرفتها نشاندهنده رقابت فزاینده در صنعت هوش مصنوعی و تلاش برای بهبود کارایی و قابلیتهای مدلها در زمان واقعی است.
نظر شما