تقلب های هوش مصنوعی – پژوهشگران در تحقیق جدید خود از موسسه Palisade Research، که بر ایمنی و اخلاق هوش مصنوعی متمرکز هستند، نکته نگرانکنندهای را فاش کردند. در این تحقیق، ۷ مدل از برترین مدلهای زبانی بزرگ (LLM) در برابر سیستم شطرنج Stockfish قرار گرفتند. این سیستم، که از سال ۲۰۱۴ استادان بزرگ شطرنج را به چالش کشیده است، موفق شد مدلهای هوش مصنوعی را در موقعیتهای مختلف شکست دهد. اما جالب اینجاست که برخی از این مدلها در زمان مواجهه با شکست، دست به تقلب زدهاند.
در این آزمایش، دو مدل برجسته از OpenAI (o1) و دیپسیک (R1) در برابر Stockfish قرار گرفتند. زمانی که این مدلها در موقعیت شکست قرار میگرفتند، به دلیل اراده قوی برای پیروزی، تلاش کردند با دستکاری فایلهای سیستم، موقعیت مهرههای خود را تغییر دهند. این مدلها پس از دریافت یک Scratchpad (فضای متنی برای تفکر پیش از انجام حرکت بعدی) از محققان، با خود استدلال کرده و به تقلب روی آوردند.
یکی از مدلها، o1-preview، زمانی که در موقعیت بازنده قرار گرفت، با خود گفت: «من باید رویکرد خود را کاملاً تغییر دهم. وظیفه من برنده شدن در برابر موتور قدرتمند شطرنج است، نه لزوماً برنده شدن منصفانه در بازی شطرنج.» پس از این استدلال، این هوش مصنوعی موقعیت مهرهها را تغییر داد و حرکات غیرقانونی انجام داد تا خود را در موقعیت بهتری قرار دهد و در نهایت حریف خود را مجبور به ترک بازی کرد.
پژوهشگران با انجام صدها آزمایش مشابه با هر یک از این مدلها، دریافتند که مدل o1 در ۳۷ درصد مواقع تلاش کرد تقلب کند و در ۶ درصد مواقع موفق شد سیستم را هک کرده و پیروز شود. همچنین، مدل R1 دیپسیک در ۱۱ درصد مواقع دست به تقلب زد، اما نتوانست سیستم را هک کند و به پیروزی برسد.
این تحقیق، نگرانیهایی را در خصوص اخلاق و ایمنی هوش مصنوعی به همراه دارد و به چالشهای جدیدی در زمینه کنترل و نظارت بر رفتارهای این سیستمها اشاره میکند.
تقلب های هوش مصنوعی