در یک مطالعه جدید، تیمی از دانشمندان کامپیوتر دانشگاه کلرادو بولدر تصمیم گرفتند این موضوع را بررسی کنند. آنها بیش از ۲۳۰۰ پازل سودوکوی اصلی تولید کردند که از بازیکنان میخواهند اعداد را در یک شبکه با قوانین خاص وارد کنند و سپس چندین ابزار هوش مصنوعی را برای حل آنها به کارگرفتند.نتایج متغیر بود.درحالی که برخی مدلهای هوش مصنوعی توانستند سودوکوهای ساده را حل کنند، اما حتی بهترین مدلها نیز در تبیین نحوه رسیدن به پاسخ عملکردی ضعیف داشتند؛ توضیحهایی نامفهوم، نادرست یا حتی سوررئال ارائه میدادند. این موضوع پرسشهایی را درباره قابلیت اعتماد به اطلاعات تولید شده توسط هوش مصنوعی مطرح میکند، همانطور که ماریا پاچکو، یکی از نویسندگان مشترک مطالعه، میگوید: «برای انواع مشخصی از پازل سودوکو، اکثر LLMها هنوز جای کار دارند. خصوصا در ارائه توضیحاتی که برای انسان قابل استفاده باشند؛ به عنوان مثال، چرا آن مدل به این پاسخ رسید؟ چه مراحلی لازم بود تا به آنجا برسیم؟» نتایج این پژوهش در نشریه Findings of the Association for Computational Linguistics منتشر شدهاند.
چرایی پژوهش
محققان قصد ندارند با تقلب پازل حل کنند، بلکه ازاین تمرینهای منطقی برای بررسی نحوه «تفکر» پلتفرمهای هوش مصنوعی استفاده میکنند. این یافتهها ممکن است در آینده منجر به طراحی سیستمهای کامپیوتری قابل اعتمادتر شوند، نظری که فابیو سومنزی، یکی دیگر از پژوهشگران، مطرح کرده است: «پازلها سرگرمکننده هستند، اما همچنین یک میکروکاسم (نمونه کوچک یا تصویری از یک مجموع بزرگتر یا کل) برای مطالعه فرآیند تصمیمگیری در یادگیری ماشین هستند.»
این پازلها با نوع تفکری بسیار انسانی درگیر هستند. پر کردن جدول سودوکو نیازمند پیروی از قوانین منطقی است؛ برای مثال، نمیتوانید عدد ۲ را در خانهای خالی قرار دهید اگر در همان ردیف یا ستون عدد ۲ وجود دارد. اکثر LLMهای امروزی در این نوع تفکر مشکل دارند، بهویژه به دلیل نحوه آموزششان. برای ساخت ChatGPT، توسعهدهندگان تقریبا تمام متونی را که روی اینترنت وجود داشته، به مدل دادهاند. زمانی که ChatGPT به سؤال پاسخ میدهد، در واقع محتملترین کلمه یا عبارت را پیشبینی میکند؛ تقریبا به صورت حافظهای ماشینی.
نتایج عجیب
برای شروع، محققان پازلهای سودوکوی متنوعی تولید کردند که بر اساس شبکههای ۶ در ۶ طراحی شده بودند (نسخه سادهشده ۹ در ۹ رایج). سپس این پازلها را به چند مدل هوش مصنوعی ارائه دادند. تنها مدل OpenAI موفق شد تقریبا ۶۵ درصد از پازلها را بهدرستی حل کند. سپس از پلتفرمهای هوشمصنوعی خواستند فرآیند حل را توضیح دهند. این زمانی بود که نتایج واقعا عجیب شدند.
آشوتوش تریودی، از پژوهشگران و استادیار علوم کامپیوتر در دانشگاه کلرادو بولدر گفت: «گاهیاوقات، توضیحات ساختگی بودند مثلا میگفت اینجا نمیتواند عدد ۲ باشد چون در همان ردیف عدد ۲ وجود دارد، اما واقعا آنجا عدد ۲ نبود!»
در مثالی عجیب، یکی از ابزارهای هوش مصنوعی در پاسخ به سؤالی درباره حل سودوکو، پیشبینی وضع هوا را ارائه داد! در آن مرحله هوش مصنوعی کاملا گیج و از کار افتاده بود.محققان امیدوارند سیستم هوش مصنوعی خود را به گونهای طراحی کنند که هم پازلهای پیچیده را حل کند و هم نحوه حل را توضیح دهد. آنها با نوعی پازل دیگر به نام هیتوری شروع کردهاند که مانند سودوکو شبکهای از اعداد دارد.
پاچکو گفت: «مردم درباره قابلیتهای نوظهور هوش مصنوعی صحبت میکنند؛ جایی که مدلها میتوانند چیزهایی را حل کنند که انتظار ندارید. در عین حال، غیرطبیعی نیست که آنها هنوز در بسیاری از کارها ضعیف باشند.»