0
سبد خرید شما خالی است
جیب استور > وبلاگ > مدل‌های جدید استدلال‌گر OpenAI هنوز گرفتار توهم هستند!

مدل‌های جدید استدلال‌گر OpenAI هنوز گرفتار توهم هستند!

  • واحد تولید محتوا
  • 30 فروردین 1404 14:00:12
  • زمان مطالعه 1 دقیقه

مقدمه :

OpenAI از دو مدل جدید استدلال‌گر با نام‌های o3 و o4-mini رونمایی کرده، اما بررسی‌ها نشان می‌دهد که این مدل‌ها بیش از نسخه‌های قبلی دچار توهم می‌شوند و اطلاعات نادرست تولید می‌کنند؛ مسئله‌ای که چالشی جدی برای دقت هوش مصنوعی محسوب می‌شود.

مدل‌های جدید استدلال‌گر OpenAI هنوز گرفتار توهم هستند!

آنچه در این مقاله میخوانید

چند روز پیش، OpenAI از دو مدل هوش مصنوعی جدید خود با نام‌های o3 و o4-mini رونمایی کرد؛ مدل‌هایی که با هدف بهبود توانایی استدلال طراحی شده‌اند. اما طبق بررسی‌های انجام‌شده، این مدل‌ها با وجود برخی پیشرفت‌ها، همچنان با چالش بزرگ «توهم» مواجه‌اند.

توهم در مدل‌های o3 و o4-mini

بر اساس گزارشی از TechCrunch، این دو مدل در مقایسه با نسخه‌های قبلی OpenAI (مثل o1، o1-mini و o3-mini) حتی توهم بیشتری تولید می‌کنند. توهم در اینجا به معنای ارائه اطلاعات نادرست یا ساختگی است؛ پدیده‌ای که یکی از معضلات اصلی در حوزه هوش مصنوعی محسوب می‌شود.

به‌عنوان مثال، مدل o3 در پاسخ به 33 درصد از سؤالات PersonQA دچار توهم شده، در حالی که این نرخ برای مدل‌های قبلی تنها 14 تا 16 درصد بوده است. مدل o4-mini نیز وضعیت بدتری دارد و در 48 درصد از موارد پاسخ نادرست داده است.

چرا توهم بیشتر شده است؟

نکته جالب و البته نگران‌کننده اینجاست که OpenAI هنوز دلیل دقیق افزایش توهم در این مدل‌های جدید را نمی‌داند. در گزارش فنی منتشرشده، این شرکت عنوان کرده که «نیاز به تحقیقات بیشتر برای درک چرایی این موضوع وجود دارد».

قدرت بیشتر، اشتباهات بیشتر

مدل‌های o3 و o4-mini در حوزه‌هایی مانند برنامه‌نویسی و ریاضیات عملکرد نسبتاً بهتری دارند، اما از آنجا که «ادعاهای بیشتری ارائه می‌دهند»، به همان نسبت اشتباهات بیشتری نیز مرتکب می‌شوند.

راه‌حل چیست؟

یکی از راه‌حل‌های پیشنهادی برای کاهش توهم، استفاده از قابلیت جستجوی وب است. برای نمونه، مدل GPT-4o با امکان دسترسی به اینترنت، توانست در بنچمارک SimpleQA امتیاز دقت 90 درصدی کسب کند؛ نشانه‌ای از تأثیر مثبت اتصال به منابع واقعی.

در مجموع، اگرچه OpenAI گام‌های بزرگی در توسعه مدل‌های استدلال‌گر برداشته، اما چالش توهم همچنان یکی از بزرگ‌ترین موانع پیش‌روی آن است؛ مسئله‌ای که برای کاربران و کسب‌وکارهای وابسته به دقت بالا، بسیار حیاتی است.

تاریخ بروزرسانی : 25 آبان 1404 11:00:37
مطالب مشابه
خداحافظی جنجالی پلی‌استیشن پلاس با GTA 3 در دسامبر ۲۰۲۵
آموزش

خداحافظی جنجالی پلی‌استیشن پلاس با GTA 3 در دسامبر ۲۰۲۵

پلی‌ استیشن پلاس اعلام کرده که در دسامبر ۲۰۲۵، نه بازی مطرح ازجمله GTA 3، Battlefield 2042، Forspoken و Sonic Frontiers از سرویس خارج می‌شوند. اگر قصد تجربه این عناوین را دارید، باید تا قبل از حذف آن‌ها اقدام کنید؛ چون جایگزین‌های جدیدی در راه‌اند.

27 آبان 1404
بهترین بازی‌های کم‌ حجم اما فوق‌العاده جذاب برای کامپیوتر !
آموزش

بهترین بازی‌های کم‌ حجم اما فوق‌العاده جذاب برای کامپیوتر !

این مطلب بهترین بازی‌های کم‌حجم کامپیوتر را معرفی می‌کند؛ آثاری که با وجود حجم پایین، تجربه‌ای فوق‌العاده، متنوع و مناسب سیستم‌های ضعیف ارائه می‌دهند. از Celeste و Dead Cells تا لاک‌پشت‌های نینجا و Undertale، این فهرست راهنمایی کامل برای انتخاب بازی‌های کم‌حجم ۲۰۲۵ است.

27 آبان 1404
Gun Van امروز دقیقا کجاست؟ لوکیشن تازه منتشر شد!
آموزش

Gun Van امروز دقیقا کجاست؟ لوکیشن تازه منتشر شد!

امروز ۱۸ نوامبر ۲۰۲۵ لوکیشن Gun Van در GTA Online به Grapeseed منتقل شده. موجودی این هفته شامل چند اسلحه قدرتمند با تخفیف‌های ۱۰ تا ۳۰ درصد است. اگر GTA+ ندارید، لوکیشن فقط با نزدیک شدن روی نقشه ظاهر می‌شود. روزانه چک کنید تا از دستش ندهید.

27 آبان 1404
امروز کجا اسپری بزنیم؟ لوکیشن‌های جدید LS Tags در GTA Online منتشر شد!
آموزش

امروز کجا اسپری بزنیم؟ لوکیشن‌های جدید LS Tags در GTA Online منتشر شد!

چالش روزانه LS Tags در GTA Online امروز پنج لوکیشن تازه برای اسپری‌کردن معرفی کرده است. با تکمیل هر پنج نقطه، بازیکنان می‌توانند تا ۱۰۰ هزار دلار و RP دریافت کنند و بار اول نیز لباس Street Artist را آزاد کنند. فعالیتی سریع، پول‌ساز و جذاب برای همه.

27 آبان 1404
رقابت میتیک‌ها در کالاف موبایل؛ کدام اسلحه برنده می‌شود؟
آموزش

رقابت میتیک‌ها در کالاف موبایل؛ کدام اسلحه برنده می‌شود؟

رویداد جهانی Mythic Weapon Voting در کالاف موبایل برگشته و بازیکنان می‌توانند با ثبت Wish تعیین کنند کدام اسلحه میتیک دوباره عرضه شود؛ از جمله M13 – Morningstar. هم‌زمان یک تغییر مهم هم در سرور تست دیده شده: آسیب تدریجی خودروها خارج از Zone.

27 آبان 1404
راک‌ استار در حال تست GTA 6 روی نینتندو سوییچ ۲ | واقعیت یا شایعه؟
آموزش

راک‌ استار در حال تست GTA 6 روی نینتندو سوییچ ۲ | واقعیت یا شایعه؟

گزارش‌ها نشان می‌دهد راک‌استار در حال بررسی امکان عرضه GTA 6 برای نینتندو سوییچ ۲ است. با توجه به قدرت بالاتر سوییچ جدید و تمایل Take-Two به همکاری با نینتندو، احتمال انتشار این بازی روی کنسول دستی جدید وجود دارد؛ هرچند هنوز چیزی رسمی نیست.

27 آبان 1404

نظرات کاربران

دیدگاهتان را بنویسید

+ =

راه های ارتباطی با ما

از طریق تلگرام و یا برقراری تماس می‌توانید با تیم پشتیبانی ما در ارتباط باشید.