چند روز پیش، OpenAI از دو مدل هوش مصنوعی جدید خود با نامهای o3 و o4-mini رونمایی کرد؛ مدلهایی که با هدف بهبود توانایی استدلال طراحی شدهاند. اما طبق بررسیهای انجامشده، این مدلها با وجود برخی پیشرفتها، همچنان با چالش بزرگ «توهم» مواجهاند.
توهم در مدلهای o3 و o4-mini
بر اساس گزارشی از TechCrunch، این دو مدل در مقایسه با نسخههای قبلی OpenAI (مثل o1، o1-mini و o3-mini) حتی توهم بیشتری تولید میکنند. توهم در اینجا به معنای ارائه اطلاعات نادرست یا ساختگی است؛ پدیدهای که یکی از معضلات اصلی در حوزه هوش مصنوعی محسوب میشود.
بهعنوان مثال، مدل o3 در پاسخ به 33 درصد از سؤالات PersonQA دچار توهم شده، در حالی که این نرخ برای مدلهای قبلی تنها 14 تا 16 درصد بوده است. مدل o4-mini نیز وضعیت بدتری دارد و در 48 درصد از موارد پاسخ نادرست داده است.
چرا توهم بیشتر شده است؟
نکته جالب و البته نگرانکننده اینجاست که OpenAI هنوز دلیل دقیق افزایش توهم در این مدلهای جدید را نمیداند. در گزارش فنی منتشرشده، این شرکت عنوان کرده که «نیاز به تحقیقات بیشتر برای درک چرایی این موضوع وجود دارد».
قدرت بیشتر، اشتباهات بیشتر
مدلهای o3 و o4-mini در حوزههایی مانند برنامهنویسی و ریاضیات عملکرد نسبتاً بهتری دارند، اما از آنجا که «ادعاهای بیشتری ارائه میدهند»، به همان نسبت اشتباهات بیشتری نیز مرتکب میشوند.
راهحل چیست؟
یکی از راهحلهای پیشنهادی برای کاهش توهم، استفاده از قابلیت جستجوی وب است. برای نمونه، مدل GPT-4o با امکان دسترسی به اینترنت، توانست در بنچمارک SimpleQA امتیاز دقت 90 درصدی کسب کند؛ نشانهای از تأثیر مثبت اتصال به منابع واقعی.
در مجموع، اگرچه OpenAI گامهای بزرگی در توسعه مدلهای استدلالگر برداشته، اما چالش توهم همچنان یکی از بزرگترین موانع پیشروی آن است؛ مسئلهای که برای کاربران و کسبوکارهای وابسته به دقت بالا، بسیار حیاتی است.
نظرات کاربران