0
سبد خرید شما خالی است
جیب استور > وبلاگ > مدل‌های جدید استدلال‌گر OpenAI هنوز گرفتار توهم هستند!

مدل‌های جدید استدلال‌گر OpenAI هنوز گرفتار توهم هستند!

  • واحد تولید محتوا
  • 30 فروردین 1404 14:00:12
  • زمان مطالعه 1 دقیقه

مقدمه :

OpenAI از دو مدل جدید استدلال‌گر با نام‌های o3 و o4-mini رونمایی کرده، اما بررسی‌ها نشان می‌دهد که این مدل‌ها بیش از نسخه‌های قبلی دچار توهم می‌شوند و اطلاعات نادرست تولید می‌کنند؛ مسئله‌ای که چالشی جدی برای دقت هوش مصنوعی محسوب می‌شود.

مدل‌های جدید استدلال‌گر OpenAI هنوز گرفتار توهم هستند!

آنچه در این مقاله میخوانید

چند روز پیش، OpenAI از دو مدل هوش مصنوعی جدید خود با نام‌های o3 و o4-mini رونمایی کرد؛ مدل‌هایی که با هدف بهبود توانایی استدلال طراحی شده‌اند. اما طبق بررسی‌های انجام‌شده، این مدل‌ها با وجود برخی پیشرفت‌ها، همچنان با چالش بزرگ «توهم» مواجه‌اند.

توهم در مدل‌های o3 و o4-mini

بر اساس گزارشی از TechCrunch، این دو مدل در مقایسه با نسخه‌های قبلی OpenAI (مثل o1، o1-mini و o3-mini) حتی توهم بیشتری تولید می‌کنند. توهم در اینجا به معنای ارائه اطلاعات نادرست یا ساختگی است؛ پدیده‌ای که یکی از معضلات اصلی در حوزه هوش مصنوعی محسوب می‌شود.

به‌عنوان مثال، مدل o3 در پاسخ به 33 درصد از سؤالات PersonQA دچار توهم شده، در حالی که این نرخ برای مدل‌های قبلی تنها 14 تا 16 درصد بوده است. مدل o4-mini نیز وضعیت بدتری دارد و در 48 درصد از موارد پاسخ نادرست داده است.

چرا توهم بیشتر شده است؟

نکته جالب و البته نگران‌کننده اینجاست که OpenAI هنوز دلیل دقیق افزایش توهم در این مدل‌های جدید را نمی‌داند. در گزارش فنی منتشرشده، این شرکت عنوان کرده که «نیاز به تحقیقات بیشتر برای درک چرایی این موضوع وجود دارد».

قدرت بیشتر، اشتباهات بیشتر

مدل‌های o3 و o4-mini در حوزه‌هایی مانند برنامه‌نویسی و ریاضیات عملکرد نسبتاً بهتری دارند، اما از آنجا که «ادعاهای بیشتری ارائه می‌دهند»، به همان نسبت اشتباهات بیشتری نیز مرتکب می‌شوند.

راه‌حل چیست؟

یکی از راه‌حل‌های پیشنهادی برای کاهش توهم، استفاده از قابلیت جستجوی وب است. برای نمونه، مدل GPT-4o با امکان دسترسی به اینترنت، توانست در بنچمارک SimpleQA امتیاز دقت 90 درصدی کسب کند؛ نشانه‌ای از تأثیر مثبت اتصال به منابع واقعی.

در مجموع، اگرچه OpenAI گام‌های بزرگی در توسعه مدل‌های استدلال‌گر برداشته، اما چالش توهم همچنان یکی از بزرگ‌ترین موانع پیش‌روی آن است؛ مسئله‌ای که برای کاربران و کسب‌وکارهای وابسته به دقت بالا، بسیار حیاتی است.

تاریخ بروزرسانی : 26 فروردین 1405 15:24:16
مطالب مشابه
شوک به گیمرها؛ استیم دک گران شد و در آمریکا نایاب!
آموزش

شوک به گیمرها؛ استیم دک گران شد و در آمریکا نایاب!

استیم دک این روزها حال‌وهوای خوبی ندارد؛ افزایش قیمت شدید در بازارهای آسیایی و نایابی کامل در آمریکا، نتیجه فشار هزینه‌های لجستیکی، نوسانات ارزی و بحران جهانی رم ناشی از رشد هوش مصنوعی است؛ بحرانی که می‌تواند به گرانی کنسول‌های دیگر هم منجر شود.

26 فروردین 1405
کلش رویال بعد از ۱۰ سال متحول شد؛ بزرگ‌ترین آپدیت تاریخ بازی چیست؟
آموزش

کلش رویال بعد از ۱۰ سال متحول شد؛ بزرگ‌ترین آپدیت تاریخ بازی چیست؟

به‌روزرسانی مارس ۲۰۲۶ بازی Clash Royale به‌مناسبت ۱۰ سالگی، با قهرمانان جدید، رویداد آلبوم نوستالژیک، گسترش مسیر تروفی و بازطراحی کامل سیستم قهرمانان منتشر می‌شود؛ آپدیتی بزرگ که هم متا را تغییر می‌دهد و هم به بازخورد بازیکنان پاسخ می‌دهد.

26 فروردین 1405
آپدیت فوریه کلش اف کلنز منتشر شد؛ گلد پس جدید و قهرمانی که هنوز آزاد نشده!
آموزش

آپدیت فوریه کلش اف کلنز منتشر شد؛ گلد پس جدید و قهرمانی که هنوز آزاد نشده!

به‌روزرسانی فوریه Clash of Clans با تمرکز بر تاون هال ۱۸ منتشر شد. این آپدیت شامل بازطراحی کامل گلد پس، سیستم انتخاب پاداش، معرفی قهرمان جدید Dragon Duke، حیوان خانگی تازه و موجی از ارتقاها برای بازیکنان سطح بالا است.

26 فروردین 1405
سازندگان Postal شوخی را کنار گذاشتند؛ Flesh & Wire تاریک‌تر از چیزی است که فکر می‌کنید
آموزش

سازندگان Postal شوخی را کنار گذاشتند؛ Flesh & Wire تاریک‌تر از چیزی است که فکر می‌کنید

استودیوی Running With Scissors، سازنده سری Postal، از شوتر اول‌شخص جدیدی به نام Flesh & Wire رونمایی کرد. این بازی با تمرکز بر وحشت روان‌شناختی و داستانی تاریک، در سال ۲۰۲۷ برای پلی‌استیشن ۵ و PC منتشر می‌شود.

26 فروردین 1405
حرکت غافلگیرکننده سونی ، تست Gran Turismo روی کنسول نینتندو
آموزش

حرکت غافلگیرکننده سونی ، تست Gran Turismo روی کنسول نینتندو

گزارش‌ها نشان می‌دهد سونی بازی Gran Turismo 7 را روی نینتندو سوییچ ۲ اجرا کرده است. هرچند عرضه رسمی بعید به نظر می‌رسد، اما این آزمایش می‌تواند نشانه‌ای جدی از تغییر استراتژی سونی و حرکت تدریجی به‌سوی آینده‌ای چندپلتفرمی باشد.

26 فروردین 1405
گلکسی S26 اولترا یا آیفون ۱۷ پرو مکس؟ نبردی که انتخاب پرچم‌دار ۲۰۲۶ را سخت می‌کند
آموزش

گلکسی S26 اولترا یا آیفون ۱۷ پرو مکس؟ نبردی که انتخاب پرچم‌دار ۲۰۲۶ را سخت می‌کند

گلکسی S26 اولترا و آیفون ۱۷ پرو مکس نماینده دو نگاه متفاوت در دنیای پرچم‌داران هستند؛ یکی با تمرکز بر هوش مصنوعی، ارگونومی و زوم حرفه‌ای، و دیگری با نمایشگر HDR خیره‌کننده و پردازش قدرتمند. انتخاب نهایی کاملاً به اولویت‌های کاربر بستگی دارد.

26 فروردین 1405

نظرات کاربران

دیدگاهتان را بنویسید

+ =

راه های ارتباطی با ما

از طریق تلگرام و یا برقراری تماس می‌توانید با تیم پشتیبانی ما در ارتباط باشید.