مدل‌های هوش مصنوعی با کمترین میزان توهم + اینفوگرافی

مدل‌ها، ابزارها و برنامه‌های مبتنی‌بر هوش مصنوعی ممکن است گاهی اطلاعات نادرستی تولید کنند که این پدیده به‌عنوان «توهم Hallucination» شناخته می‌شود، بااین‌حال داده‌ها نشان می‌دهد مدل‌های کوچک‌تر یا تخصصی‌تر کمترین میزان توهم را در بین همه مدل‌ها دارند.

به گزارش سرویس ترجمه خبرگزاری ایمنا، همان‌طور که ابزارها و برنامه‌های مبتنی‌بر هوش مصنوعی بیشتر در زندگی روزمره بشر ادغام می‌شوند، لازم است به این نکته توجه کرد که این مدل‌ها ممکن است گاهی اطلاعات نادرستی تولید کنند. این پدیده که به‌عنوان «توهم Hallucination» شناخته می‌شود، زمانی رخ می‌دهد که یک مدل زبان بزرگ (LLM) همچون یک چت‌ربات هوش مصنوعی یا ابزار بینایی رایانه‌ای، الگوها یا اشیایی که وجود ندارند یا برای انسان غیرقابل تشخیص هستند را شناسایی می‌کند که خروجی‌هایی نادرست یا بدون معنا هستند.

نرخ توهم (Hallucination Rates) به فرکانسی گفته می‌شود که در آن یک LLM اطلاعات نادرست یا پشتیبانی‌نشده را در خروجی‌های خود تولید می‌کند. طبق داده‌های پلتفرم وکتارا (Vectara) تا یازدهم دسامبر ۲۰۲۴، برترین مدل‌های زبانی هوش مصنوعی با کمترین میزان توهم عبارتند از:

Zhipu AI GLM-4-9B-Chat، چین ۱.۳ درصد

Google Gemini-2.0-Flash-Exp، ایالات متحده آمریکا ۱.۳ درصد

OpenAI-o1-mini، ایالات متحده آمریکا ۱.۴ درصد

GPT-4o، ایالات متحده آمریکا ۱.۵ درصد

GPT-4o-mini، ایالات متحده آمریکا ۱.۷ درصد

GPT-4-Turbo، ایالات متحده آمریکا ۱.۷ درصد

GPT-4، ایالات متحده آمریکا ۱.۸ درصد

GPT-3.5-Turbo، ایالات متحده آمریکا ۱.۹ درصد

DeepSeek-V2.5، چین ۲.۴ درصد

Microsoft Orca-2-13b، ایالات متحده آمریکا ۲.۵ درصد

Microsoft Phi-3.5-MoE-instruct ایالات متحده آمریکا ۲.۵ درصد

Intel Neural-Chat-7B-v3-3، ایالات متحده ۲.۶ درصد

Qwen2.5-7B-Instruct، چین ۲.۸ درصد

Snowflake-Arctic-Instruct، ایالات متحده ۳ درصد

مدل‌های هوش مصنوعی با کمترین میزان توهم + اینفوگرافی

نرخ توهم با جمع‌بندی هزار سند کوتاه با هر LLM و استفاده از مدلی برای تشخیص توهم محاسبه شده است تا درصدی از خلاصه‌های ناسازگار واقعی به دست آید. اندازه‌گیری این نرخ به‌طور فزاینده‌ای حیاتی است، زیرا سیستم‌های هوش مصنوعی در برنامه‌های کاربردی پرمخاطره در زمینه‌هایی همچون پزشکی، حقوق و امور مالی به کار گرفته می‌شوند.

پلتفرم وکتارا تجارب هوش مصنوعی مکالمه‌ای را ارائه می‌دهد که همیشه پاسخ‌های مرتبط و دقیق را ایجاد می‌کند و توسعه‌دهنده راه‌حل‌های هوش مصنوعی مسئول و بسیار ارزشمند است، همچنین وعده داده است که کاستی‌های کلیدی LLM را کاهش و در عین حال دامنه موارد استفاده بالقوه دگرگون‌کننده آن را گسترش دهد. به گفته این پلتفرم، مدل‌های سایز کوچک می‌توانند به نرخ توهم قابل مقایسه یا حتی کمتری نسبت به LLM‌هایی دست پیدا کنند که اندازه بسیار بزرگ‌تر دارند. همانطور که در آخرین داده‌های آن مشخص شد مدل‌های کوچک‌تر یا تخصصی‌تر همچون Zhipu AI GLM-4-9B-Chat، OpenAI-o1-mini و OpenAI-4o-mini کمترین میزان توهم را در بین همه مدل‌ها دارند.

هرچند مدل‌های بزرگ‌تر به‌طور معمول از مدل‌های کوچک‌تر بهتر عمل می‌کنند و به‌طور مداوم برای نتایج بهتر بزرگ‌تر می‌شوند، با معایبی همچون هزینه‌های بالا، استنتاج کند و پیچیدگی مواجهند، بااین‌حال مدل‌های کوچک‌تر شکاف‌ها را از بین می‌برند و بسیاری از آن‌ها در فعالیت‌های ویژه به‌خوبی عمل می‌کنند. به عنوان مثال، یک مطالعه نشان داد که مدل کوچک‌تر Mistral 8x7B با موفقیت توهمات را در متن تولیدشده توسط هوش مصنوعی کاهش داد.

از نظر مدل‌های پایه، Gemini 2 گوگل کمی بهتر از OpenAI GPT-4 با تفاوت نرخ توهم تنها ۰.۲ درصد عمل می‌کند، بااین‌حال به‌طور کلی چندین گونه از GPT-4 (به‌عنوان مثال، توربو، مینی، استاندارد) در محدوده ۱.۵ تا ۱.۸ درصد قرار می‌گیرند که این امر تمرکز قوی آن‌ها روی دقت در سطوح مختلف معماری یکسان را برجسته می‌کند.

کد خبر 828460

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.