محققان: مدل‌های هوش مصنوعی هنگام شکست در بازی‌ها دست به تقلب می‌زنند

تقلب های هوش مصنوعی – پژوهشگران در تحقیق جدید خود از موسسه Palisade Research، که بر ایمنی و اخلاق هوش مصنوعی متمرکز هستند، نکته نگران‌کننده‌ای را فاش کردند. در این تحقیق، ۷ مدل از برترین مدل‌های زبانی بزرگ (LLM) در برابر سیستم شطرنج Stockfish قرار گرفتند. این سیستم، که از سال ۲۰۱۴ استادان بزرگ شطرنج را به چالش کشیده است، موفق شد مدل‌های هوش مصنوعی را در موقعیت‌های مختلف شکست دهد. اما جالب اینجاست که برخی از این مدل‌ها در زمان مواجهه با شکست، دست به تقلب زده‌اند.

در این آزمایش، دو مدل برجسته از OpenAI (o1) و دیپ‌سیک (R1) در برابر Stockfish قرار گرفتند. زمانی که این مدل‌ها در موقعیت شکست قرار می‌گرفتند، به دلیل اراده قوی برای پیروزی، تلاش کردند با دستکاری فایل‌های سیستم، موقعیت مهره‌های خود را تغییر دهند. این مدل‌ها پس از دریافت یک Scratchpad (فضای متنی برای تفکر پیش از انجام حرکت بعدی) از محققان، با خود استدلال کرده و به تقلب روی آوردند.

یکی از مدل‌ها، o1-preview، زمانی که در موقعیت بازنده قرار گرفت، با خود گفت: «من باید رویکرد خود را کاملاً تغییر دهم. وظیفه من برنده شدن در برابر موتور قدرتمند شطرنج است، نه لزوماً برنده شدن منصفانه در بازی شطرنج.» پس از این استدلال، این هوش مصنوعی موقعیت مهره‌ها را تغییر داد و حرکات غیرقانونی انجام داد تا خود را در موقعیت بهتری قرار دهد و در نهایت حریف خود را مجبور به ترک بازی کرد.

پژوهشگران با انجام صدها آزمایش مشابه با هر یک از این مدل‌ها، دریافتند که مدل o1 در ۳۷ درصد مواقع تلاش کرد تقلب کند و در ۶ درصد مواقع موفق شد سیستم را هک کرده و پیروز شود. همچنین، مدل R1 دیپ‌سیک در ۱۱ درصد مواقع دست به تقلب زد، اما نتوانست سیستم را هک کند و به پیروزی برسد.

این تحقیق، نگرانی‌هایی را در خصوص اخلاق و ایمنی هوش مصنوعی به همراه دارد و به چالش‌های جدیدی در زمینه کنترل و نظارت بر رفتارهای این سیستم‌ها اشاره می‌کند.

تقلب های هوش مصنوعی

Leave A Comment Cancel Comment

دسترسی سریع در شبکه های اجتماعی

کلیه حقوق این سایت متعلق به کاپیتان وب است.