ایران پرسمان | مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند

مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند اقتصاد روز

بزرگنمايي:

ایران پرسمان - ایسنا /بررسی‌ها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر است.
مدل‌های هوش مصنوعی «o3» و «o4-mini» شرکت «اوپن‌ای‌آی»(OpenAI) که اخیرا عرضه شده‌اند، از بسیاری جهت‌ها پیشرفته هستند. با وجود این، مدل‌های جدید هنوز هم به توهم دچار می‌شوند یا محتوا را از خود می‌سازند. در واقع، آنها بیش از چندین مدل قدیمی اوپن‌ای‌آی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته می‌شود. ثابت شده است که توهمات یکی از بزرگ‌ترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستم‌های با بهترین عملکرد امروزی نیز تأثیر می‌گذارند. همه مدل‌های جدید معمولا کمی در بخش توهم بهبود یافته‌اند و کمتر از مدل پیشین خود توهم ایجاد می‌کنند، اما به نظر نمی‌رسد که این در مورد o3 و o4-mini صدق کند.
آزمایش‌های داخلی شرکت اوپن‌ای‌آی نشان می‌دهند o3 و o4-mini که «مدل‌های استدلالی» هستند، بیشتر از مدل‌های استدلالی پیشین شرکت شامل «o1»، «o1-mini» و «o3-mini» و همچنین، مدل‌های سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم می‌شوند.
موضوع نگران‌کننده‌تر این است که سازنده «چت‌جی‌پی‌تی»(ChatGPT) واقعا نمی‌داند چرا این اتفاق رخ می‌دهد. اوپن‌ای‌آی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسی‌های بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدل‌های استدلالی بدتر می‌شوند. مدل‌های O3 و o4-mini در برخی زمینه‌ها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیق‌تر و ادعاهای نادرست و توهم بیشتر می‌روند.
اوپن‌ای‌آی دریافت o3 در پاسخ به 33 درصد از پرسش‌ها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد می‌کند. این تقریبا دو برابر میزان توهم مدل‌های استدلال پیشین اوپن‌ای‌آی شامل o1 و o3-mini است که به ترتیب به 16 و 14.8 درصد پرسش‌ها پاسخ داده‌اند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و 48 درصد مواقع توهم‌زدگی داشت.
بررسی انجام‌شده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورت‌گرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپن‌ای‌آی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویت‌یافته مورد استفاده برای مدل‌های سری o ممکن است مشکلات کاهش‌یافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیان‌گذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه می‌توانست باشد، سودمند کند.
«کیان کتان‌فروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارت‌آپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافته‌اند که آن را یک گام جلوتر از رقبا قرار داده‌اند. با وجود این، کتان‌فروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه می‌دهد که وقتی روی آنها کلیک شود، کار نمی‌کند.
توهمات ممکن است به مدل‌ها کمک کنند تا به ایده‌های جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدل‌ها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل می‌کنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد می‌کند، راضی نخواهد بود.
یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، دادن قابلیت‌های جست‌وجوی وب به آنهاست. مدل GPT-4o با جست‌وجوی وب، دقت 90 را در SimpleQA به دست می‌آورد که یکی دیگر از معیارهای دقت اوپن‌ای‌آی است. به طور بالقوه، جست‌وجو می‌تواند نرخ توهم مدل‌های استدلالی را نیز بهبود ببخشد.
اگر گسترش مدل‌های استدلالی واقعا به تشدید توهم ادامه دهد، جست‌وجو برای یافتن راه‌ حل را بیش از پیش ضروری می‌کند. «نیکو فلیکس»(Niko Felix)، سخن‌گوی اوپن‌ای‌آی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدل‌های ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش می‌کنیم.

شنبه ۳۰ فروردين ۱۴۰۴ - ۱۵:۴۳:۴۴
۵ بازديد
ایران پرسمان

https://www.iranporseman.ir/Fa/News/1242680/

اگر برنامه ریزی اجباری شود، آن را انجام خواهیم داد؟

در بزرگداشت سعدی در افغانستان چه گذشت؟

بهترین سایت های کاریابی برای استخدام در مشهد چیست؟

کدام خودروهای چینی زنجیر تایم دارند؟ نکاتی که قبل‌از خرید باید بدانید

آخرين مطالب

مدل‌های هوش مصنوعی استدلالی جدید «اوپن‌ای‌آی» بیشتر توهم می‌زنند اقتصاد روز

نظرات شما

ساير مطالب

سقوط تاریخی توکن MELANIA؛ نگرانی‌ها از فعالیت‌های داخلی تیم فنی

پیش بینی قیمت دلار 1 اردیبهشت 1404

خلاقیت هکرها در ایالت‌ کالیفرنیا!

آسمان به‌زودی به زمین لبخند می‌زند!

جروزالم‌پست: دیدار بی‌ثمرِ اسرائیلی‌ها با ویتکاف درباره ایران

نیویورک‌تایمز: کشورهای خلیج‌فارس برخلاف گذشته حامی توافق ایران و آمریکا هستند

تصاویر اولین جلسه هیئت دولت با حضور عراقچی

رئیس جمهور لبنان: مردم ما خواهان جنگ نیستند و باید سلاح تنها در اختیار دولت باشد

هلال احمر فلسطین: پیکرهای نیروهای امدادی به شکل جنایتکارانه‌ای دفن شده‌اند

واکنش جوزف عون به حملات اسرائیل به جنوب لبنان

بازدید رئیس ستاد کل ارتش اسرائیل از مناطق اشغالی در سوریه

شرط جدید دولت ترامپ برای لغو تحریم‌های سوریه

حدس و گمان‌ها درباره اخراج مقامات ارشد پنتاگون

مذاکرات فنی شد

باز تعریف رابطه تندروها و حاکمیت

از تقابل نظامی به دیپلماسی

غیبت وزیر نفت در مراسم راه‌آهن و شرکت بابک زنجانی

تاکید رئیس‌جمهوری بر تامین برق ادارات دولتی از انرژی تجدیدپذیر

رنگ سرخ بازار طلا و ارز؛ ربع سکه ثابت ماند

سرعت بالا و عدم توانایی راننده پژو در کنترل وسیله نقلیه

گوناگون/ نتیجه عجیب یک آزمایش؛ مأمورم و معذور!

انقلابی در روابط انسانی با چت‌بات‌ها

2 مجموعه شعر منتشر شد

معاون ارتباطات دفتر رییس جمهور: گزینه وزارت اقتصاد قطعی شده؛ طیب‌نیا وزارت اقتصاد را نپذیرفت

پیشنهاد سپه‌وند، عضو کمیسیون انرژی مجلس به مخالفان مذاکره ایران و آمریکا در کشور

جروزالم پست: رئیس موساد و وزیر اسرائیلی نتوانستند ویتکاف را از مسیری که در مذاکرات با ایران در پیش گرفته، منصرف کنند

امارات دعوت اسرائیلی‌ها برای منفجر کردن مسجد الاقصی را محکوم کرد

شروط فضایی اسرائیل برای توقف جنگ در غزه

اسرائیل مدعی به شهادت رساندن یک فرمانده حزب‌الله شد

دعوت پرحاشیه، اعتراضات چهره‌ها و احزاب عراقی را در پی داشت

دیدار پاپ فرانسیس و معاون ترامپ

افت بی‌سابقه محبوبیت ترامپ در زمینه اقتصادی در نظرسنجی سی‌ان‌بی‌سی

روسیه و اوکراین یکدیگر را به نقض آتش‌بس «عید پاک» متهم کردند

دستورکار مذاکرات ملاک تحلیل است، نه فضاسازی رسانه‌ای

تندروها خطوط قرمز را رد کردند و حاکمیت به آنها بی‌‏اعتماد شد

تعیین چهارچوب توافق، گام مهم مذاکراتی در رم

مشاور رییس جمهور: 60% درآمد خانوارها صرف اجاره مسکن می شود

ظرفیت صادرات 50 هزار تن پای مرغ ایران به چین

زندگی بزرگان/ ماجرای دعوای دو برادر شهید

قایق درحال حرکته و ناخدا خوابش برده!

مینی بوس رو تبدیل به قطار کرده!

بین دوتا اتوبوس عجیب زنده موند!

دستی کشیدن قایق در ساحل!

پیری سریع مغز می‌تواند باعث ایجاد اسکیزوفرنی شود

درون سینه نگنجد ، غمی که من دارم

سخنگوی کمیسیون امنیت ملی به نقل از غریب‌آبادی: غنی‌سازی جزو خطوط قرمز ماست

سخنگوی وزارت امور خارجه: ترکیب تیم مذاکره‌کننده بر اساس روند مذاکرات و موضوعات دستورکار تنظیم می‌شود

طعنه سنگین محمد مهاجری به وزیر زن پزشکیان

جروزالم پست: مقام‌های امنیتی اسرائیل نتوانسته‌اند موضع ویتکاف در مذاکرات با ایران را تغییر دهند

پامپئو: هرگونه توافق جدید ترامپ با ایران باید شامل نابودی تمام سایت‌های غنی‌سازی اورانیوم شود

تبليغات