تست روان‌شناسان روی هوش مصنوعی؛ آزمونی که چت‌بات‌ها را به چالش کشید

فناوری و دیجیتال

زهرا صفری

خرداد 25, 1405
بدون نظر

به گزارش مدیاتی:در عصر تسلط هوش مصنوعی، جایی که الگوریتم‌ها در حال شبیه‌سازی ظرافت‌های تفکر انسانی هستند، گروهی از روان‌شناسان دست به اقدامی جسورانه زده‌اند. آن‌ها با طراحی یک آزمون پیچیده، پا به دنیای چت‌بات‌های پیشرفته گذاشته‌اند تا ببیند آیا این “مغزهای متفکر” مصنوعی، واقعاً قادر به درک و پردازش مفاهیم عمیق روان‌شناختی هستند یا صرفاً به تقلیدی استادانه بسنده کرده‌اند. این تست، که به نام “مچ‌گیری روان‌شناسان” شهرت یافته، نه تنها توانایی‌های هوش مصنوعی را به چالش کشیده، بلکه سوالات اساسی درباره ماهیت هوش، آگاهی و خلاقیت را دوباره مطرح کرده است.

مچ‌گیری روان‌شناسان از هوش مصنوعی؛ تستی که مغز متفکر چت‌بات‌ها را فلج کرد!

آیا تا به حال فکر کرده‌اید که هوش مصنوعی واقعاً مثل ما «فکر» و «تمرکز» می‌کند؟ اگر پاسخ‌تان مثبت است، این کشف جدید علمی قرار است تمام باورهایتان را به چالش بکشد. یک تست روان‌شناسی کلاسیک و بسیار قدیمی، به تازگی نقطه ضعف بزرگ و غیرمنتظره‌ای را در پیشرفته‌ترین سیستم‌های هوش مصنوعی جهان (مثل GPT-5، کلود و جمینای) آشکار کرده است؛ پاشنه آشیلی که نشان می‌دهد مفهوم تمرکز در دنیای ماشین‌ها، فرسنگ‌ها با مغز انسان فاصله دارد!

در این مقاله با اِروموتورز همراه باشید تا بررسی کنیم دانشمندان چگونه با یک آزمایش ساده، غول‌های دنیای فناوری را به زانو درآوردند.

تست استروپ چیست؟ بازی ساده‌ای که ذهن را به رگبار می‌بندد

تست استروپ (Stroop task) یک آزمایش روان‌شناسی کلاسیک است که دهه‌ها برای سنجش میزان تمرکز، توجه و کنترل ذهنی انسان‌ها استفاده می‌شود. روش کار بسیار ساده است: به شما کلماتی نشان داده می‌شود که نام رنگ‌ها هستند (مثل قرمز، آبی، سبز)، اما این کلمات با جوهرهای رنگی متفاوتی نوشته شده‌اند.

حالت همخوانی‌دار: کلمه «قرمز» با جوهر قرمز نوشته شده است (پاسخ دادن به این آسان است).

حالت متناقض: کلمه «قرمز» با جوهر آبی نوشته شده است!

از شرکت‌کننده خواسته می‌شود که بدون توجه به خودِ کلمه، فقط و فقط رنگ جوهر را بلند نام ببرد. از آنجا که مغز ما انسان‌ها عادت کرده کلمات را به صورت خودکار و سریع بخواند، سرکوب کردن این غریزه و تمرکز روی رنگ جوهر، یک درگیری ذهنی شدید ایجاد می‌کند. روان‌شناسان به توانایی مغز برای نادیده گرفتن این پاسخ‌های خودکار، «کنترل اجرایی» می‌گویند. انسان‌ها در مواجهه با کلمات متناقض کمی طول می‌کشد تا پاسخ دهند، اما حتی اگر تست خیلی طولانی شود، دقت خود را از دست نمی‌دهند.

شروع طوفانی هوش مصنوعی؛ وقتی ماشین‌ها ژست هوشمندی می‌گیرند

پژوهشگرانی به رهبری سوکتو پاتل (Suketu Patel) تصمیم گرفتند ببینند مدل‌های زبانی بزرگ (LLM) در برابر این چالش انسانی چه می‌کنند. در ابتدا، نتایج خیره‌کننده بود!

وقتی دانشمندان لیست‌های کوتاهی شامل ۵ کلمه متناقض را به هوش مصنوعی دادند، مدل‌ها فوق‌العاده عمل کردند. مدل GPT-4o به دقت ۹۱ درصدی رسید و مدل Claude 3.5 Sonnet نیز پا به پای آن حرکت کرد. در نگاه اول، به نظر می‌رسید هوش مصنوعی به راحتی می‌تواند دستورالعمل‌ها را دنبال کند و فریب متن کلمات را نخورد. اما این فقط آرامش قبل از طوفان بود!

سقوط آزاد و فاجعه‌بار با طولانی شدن مسیر!

ماجرا از جایی جالب شد که محققان طول لیست کلمات را افزایش دادند. با طولانی شدن تست، تمرکز هوش مصنوعی به طرز عجیبی فرو پاشید:

مدل GPT-4o: دقت این مدل در لیست ۵ کلمه‌ای ۹۱٪ بود، در لیست ۱۰ کلمه‌ای به ۵۷٪ رسید و وقتی طول لیست به ۴۰ کلمه رسید، دقت آن به شکل فاجعه‌باری تا ۱۵ درصد سقوط کرد!

مدل Claude 3.5 Sonnet: این مدل مقاومت بیشتری نشان داد و تا لیست‌های ۲۰ کلمه‌ای دوام آورد، اما در نهایت او هم تسلیم شد و در لیست ۴۰ کلمه‌ای، به دقت ضعیف ۲۴٪ افت کرد.

دانشمندان دقیقاً همین الگوی ناامیدکننده و سقوط تمرکز را در مدل‌های قدرتمندتری مثل GPT-5، کلود اپوس ۴.۱ و جمینای ۲.۵ نیز مشاهده کردند. اوضاع زمانی به اوج فاجعه رسید که کلمات همخوانی‌دار و متناقض به صورت ترکیبی جلوی هوش مصنوعی قرار گرفتند؛ در این حالت، دقت ماشین‌ها در تشخیص رنگ کلمات متناقض تقریباً به صفر رسید! یعنی هوش مصنوعی به کل فراموش کرد که وظیفه‌اش چه بوده و شروع به خواندن خودِ کلمات کرد.

چرا هوش مصنوعی حواس‌پرت است؟ تفاوت بنیادی مغز انسان و ماشین

این آزمایش یک حقیقت بزرگ را فاش کرد: سیستم‌های هوش مصنوعی هم مانند ما انسان‌ها، در طول دوران آموزش خود میلیاردها متن را خوانده‌اند و طبیعی است که تمایل شدیدی به «خواندن کلمه» داشته باشند تا «تشخیص رنگ».

اما تفاوت اصلی اینجاست: مغز بیولوژیکی انسان کنترل اراده دارد؛ ما می‌توانیم آن پاسخ خودکار (خواندن متن) را سرکوب کنیم و تا انتهای یک مسیر طولانی، روی هدف اصلی تمرکز بمانیم. اما هوش مصنوعی مجهز به معماری «ترانسفورمر»، با طولانی شدن توالی‌ها، هدف اصلی دستورالعمل را در میان حجم اطلاعات گم می‌کند و به سمت پاسخ راحت‌تر (خواندن خود کلمه) سوق داده می‌شود.

نکته تحلیل تصویر: بررسی‌ها روی مدل Claude 3.5 Sonnet نشان می‌دهد که این هوش مصنوعی ساختار و منطق تست استروپ را کاملاً می‌شناسد و آن را تحلیل می‌کند، اما در عمل و بدون راهنمایی لحظه‌به‌لحظه، در یک لیست ۱۰ کلمه‌ای تنها به دقت ۷۰ درصد می‌رسد. این یعنی «شناختن یک مسئله» توسط هوش مصنوعی اصلاً به معنی «توانایی حل درست آن» نیست!

چشمانمان را روی واقعیت هوش مصنوعی باز کنیم

مدل‌های زبانی بزرگ در نویسندگی، کدنویسی، استدلال و کارهای پیچیده شاهکار می‌کنند، اما این آزمایش ثابت کرد که آنها این کارها را به روش انسان انجام نمی‌دهند. هوش مصنوعی امروزی در کارهایی که نیازمند تمرکز مداوم، مهار پاسخ‌های خودکار و حفظ طولانی‌مدت دستورالعمل‌ها هستند، نقاط ضعف پنهان و بزرگی دارد. حالا که این فناوری بندبند زندگی روزمره ما را در بر می‌گیرد، شناخت محدودیت‌هایش به اندازه تشویق کردن نقاط قوتش حیاتی است.