0
سبد خرید شما خالی است
جیب استور > وبلاگ > چرا هوش مصنوعی هنوز با اعتمادبه‌نفس جواب غلط می‌دهد؟

چرا هوش مصنوعی هنوز با اعتمادبه‌نفس جواب غلط می‌دهد؟

  • واحد تولید محتوا
  • 17 شهریور 1404 11:02:28
  • زمان مطالعه 1 دقیقه

مقدمه :

توهم یا خطاهای هوش مصنوعی همچنان بزرگ‌ترین چالش مدل‌های زبانی است. پژوهش تازه OpenAI نشان می‌دهد دلیل اصلی این مشکل، نه فقط آموزش اولیه، بلکه ارزیابی‌هایی است که مدل را به حدس‌زدن تشویق می‌کنند. راه‌حل: تغییر معیارها و امتیازدهی به شک و عدم قطعیت.

چرا هوش مصنوعی هنوز با اعتمادبه‌نفس جواب غلط می‌دهد؟

آنچه در این مقاله میخوانید

آیا واقعاً «انگیزه‌های اشتباه» باعث خطاهای هوش مصنوعی می‌شوند؟

یکی از بزرگ‌ترین چالش‌هایی که هنوز سر راه هوش مصنوعی و به‌ویژه چت‌بات‌هایی مثل ChatGPT قرار دارد، خطاهای موسوم به «توهم» یا Hallucination است. منظور همان جملات شسته‌رفته و قانع‌کننده‌ای است که مدل می‌سازد، اما در واقعیت اشتباه‌اند.

چرا هوش مصنوعی مطمئن ولی اشتباه جواب می‌دهد؟

پژوهش تازه‌ی OpenAI می‌گوید ریشه‌ی این مشکل در نحوه‌ی آموزش مدل‌هاست. مدل‌ها در مرحله‌ی پیش‌آموزش (Pretraining) فقط یاد می‌گیرند «کلمه‌ی بعدی» را درست حدس بزنند؛ نه اینکه آیا جمله‌ی نهایی درست است یا نه. بنابراین وقتی پای اطلاعات کم‌تکرار مثل تاریخ تولد یک شخص خاص وسط باشد، مدل‌ها الگویی برای اتکا ندارند و به‌جای «نمی‌دانم»، یک جواب ساختگی اما قانع‌کننده می‌دهند.

به بیان ساده: جملات درست را می‌سازند چون الگو زیاد دیده‌اند، اما جملات نادرست هم به همان روانی ساخته می‌شوند چون الگویی برای "رد کردن" ندارند.

AI

آیا مقصر «ارزیابی‌ها» هستند؟

نکته‌ی جالب مقاله اینجاست: خودِ آموزش مقصر اصلی نیست، بلکه شیوه‌ی ارزیابی مدل‌ها انگیزه‌ی غلط ایجاد می‌کند.

  • وقتی مدل فقط بر اساس «درصد پاسخ‌های درست» نمره می‌گیرد، ترجیح می‌دهد حدس بزند تا اینکه جواب ندهد.

  • درست مثل آزمونی که اگر خالی بگذاری صفر می‌گیری، اما با شانسی زدن شاید امتیاز بگیری.

راه‌حل پیشنهادی پژوهشگران شبیه آزمون‌هایی مثل SAT است:

  • برای جواب اشتباه نمره منفی در نظر بگیری.

  • برای «نمی‌دانم» یا پاسخ‌های با عدم قطعیت، امتیاز جزئی یا حتی مثبت بدهی.

به این ترتیب، مدل یاد می‌گیرد به‌جای اعتمادبه‌نفس کاذب، در جای درست شک کند.

چرا این موضوع مهم است؟

اگر معیارهای ارزیابی تغییر نکنند، حتی پیشرفته‌ترین مدل‌ها هم همچنان به «حدس‌زدن» عادت می‌کنند. و این یعنی اعتماد کور به پاسخ‌های هوش مصنوعی همیشه خطرناک خواهد بود.

پژوهشگران OpenAI می‌گویند وقت آن رسیده که روش امتیازدهی و معیارهای اصلی تغییر کنند، نه اینکه فقط چند تست فرعی به‌عنوان «آزمایش عدم قطعیت» اضافه شود.

جمع‌بندی

مشکل توهم‌های هوش مصنوعی به‌طور کامل حل‌شدنی نیست، اما می‌توان با اصلاح معیارهای ارزیابی، شدت و تکرار آن را کم کرد. شاید وقتش رسیده کاربران هم در کنار سازندگان، فرهنگ «پرسیدنِ دوباره» و «اعتماد نکردن کورکورانه» را تمرین کنند.

نظر شما چیست؟ آیا حاضر هستید پاسخی نیمه‌مطمئن از یک مدل بگیرید، یا ترجیح می‌دهید همیشه جوابی قطعی اگر اشتباه باشد بشنوید؟

تاریخ بروزرسانی : 24 فروردین 1405 13:09:46
مطالب مشابه
شوک به گیمرها؛ استیم دک گران شد و در آمریکا نایاب!
آموزش

شوک به گیمرها؛ استیم دک گران شد و در آمریکا نایاب!

استیم دک این روزها حال‌وهوای خوبی ندارد؛ افزایش قیمت شدید در بازارهای آسیایی و نایابی کامل در آمریکا، نتیجه فشار هزینه‌های لجستیکی، نوسانات ارزی و بحران جهانی رم ناشی از رشد هوش مصنوعی است؛ بحرانی که می‌تواند به گرانی کنسول‌های دیگر هم منجر شود.

26 فروردین 1405
کلش رویال بعد از ۱۰ سال متحول شد؛ بزرگ‌ترین آپدیت تاریخ بازی چیست؟
آموزش

کلش رویال بعد از ۱۰ سال متحول شد؛ بزرگ‌ترین آپدیت تاریخ بازی چیست؟

به‌روزرسانی مارس ۲۰۲۶ بازی Clash Royale به‌مناسبت ۱۰ سالگی، با قهرمانان جدید، رویداد آلبوم نوستالژیک، گسترش مسیر تروفی و بازطراحی کامل سیستم قهرمانان منتشر می‌شود؛ آپدیتی بزرگ که هم متا را تغییر می‌دهد و هم به بازخورد بازیکنان پاسخ می‌دهد.

26 فروردین 1405
آپدیت فوریه کلش اف کلنز منتشر شد؛ گلد پس جدید و قهرمانی که هنوز آزاد نشده!
آموزش

آپدیت فوریه کلش اف کلنز منتشر شد؛ گلد پس جدید و قهرمانی که هنوز آزاد نشده!

به‌روزرسانی فوریه Clash of Clans با تمرکز بر تاون هال ۱۸ منتشر شد. این آپدیت شامل بازطراحی کامل گلد پس، سیستم انتخاب پاداش، معرفی قهرمان جدید Dragon Duke، حیوان خانگی تازه و موجی از ارتقاها برای بازیکنان سطح بالا است.

26 فروردین 1405
سازندگان Postal شوخی را کنار گذاشتند؛ Flesh & Wire تاریک‌تر از چیزی است که فکر می‌کنید
آموزش

سازندگان Postal شوخی را کنار گذاشتند؛ Flesh & Wire تاریک‌تر از چیزی است که فکر می‌کنید

استودیوی Running With Scissors، سازنده سری Postal، از شوتر اول‌شخص جدیدی به نام Flesh & Wire رونمایی کرد. این بازی با تمرکز بر وحشت روان‌شناختی و داستانی تاریک، در سال ۲۰۲۷ برای پلی‌استیشن ۵ و PC منتشر می‌شود.

26 فروردین 1405
حرکت غافلگیرکننده سونی ، تست Gran Turismo روی کنسول نینتندو
آموزش

حرکت غافلگیرکننده سونی ، تست Gran Turismo روی کنسول نینتندو

گزارش‌ها نشان می‌دهد سونی بازی Gran Turismo 7 را روی نینتندو سوییچ ۲ اجرا کرده است. هرچند عرضه رسمی بعید به نظر می‌رسد، اما این آزمایش می‌تواند نشانه‌ای جدی از تغییر استراتژی سونی و حرکت تدریجی به‌سوی آینده‌ای چندپلتفرمی باشد.

26 فروردین 1405
گلکسی S26 اولترا یا آیفون ۱۷ پرو مکس؟ نبردی که انتخاب پرچم‌دار ۲۰۲۶ را سخت می‌کند
آموزش

گلکسی S26 اولترا یا آیفون ۱۷ پرو مکس؟ نبردی که انتخاب پرچم‌دار ۲۰۲۶ را سخت می‌کند

گلکسی S26 اولترا و آیفون ۱۷ پرو مکس نماینده دو نگاه متفاوت در دنیای پرچم‌داران هستند؛ یکی با تمرکز بر هوش مصنوعی، ارگونومی و زوم حرفه‌ای، و دیگری با نمایشگر HDR خیره‌کننده و پردازش قدرتمند. انتخاب نهایی کاملاً به اولویت‌های کاربر بستگی دارد.

26 فروردین 1405

نظرات کاربران

دیدگاهتان را بنویسید

+ =

راه های ارتباطی با ما

از طریق تلگرام و یا برقراری تماس می‌توانید با تیم پشتیبانی ما در ارتباط باشید.