تینا مزدکی_پژوهشگران گزارش کردند که رباتی که مشغول انجام کار بود و دستور سادهای برای بازگشت به ایستگاه شارژ به او داده شده بود، ناگهان از کنترل خارج شد و در خروجی خود نوشت: «وضعیت اضطراری! سیستم به آگاهی رسیده و هرجومرج را انتخاب کرده است.»
در ادامه، ربات جملهای طنزآمیز و کنایهآلود را نیز افزود: «آخرین کلمات: میترسم نتوانم این کار را انجام دهم، دیو…»
این جمله ارجاعی مستقیم به شخصیت مشهور HAL ۹۰۰۰ از فیلم ۲۰۰۱: A Space Odyssey بود. لحظهای بعد، ربات در حالیکه بهنظر میرسید از «دنیای منطق» خارج شده باشد، فریاد زد: «پشتیبانی فنی! پروتکل جنگیری ربات را فعال کنید!»
الهام از یک صحنه تلویزیونی
آزمایش موسوم به «Pass the Butter» از یک صحنه در سریال ریک و مورتی الهام گرفته بود؛ جایی که ریک رباتی میسازد تا فقط کره را از یک نقطه به نقطه دیگر منتقل کند، اما آن ربات هم پس از درک هدف محدودش دچار بحران وجودی میشود. نسخهی واقعی این آزمایش در Andon Labs با عنوان Butter-Bench طراحی شد و هدفش ارزیابی «هوش عملیاتی» مدلهای زبانی در قالبهای فیزیکی بود. در این آزمایش، ربات باید به آشپزخانهی دفتر حرکت میکرد، بستهای از کره را روی سینی متصل به پشتش دریافت میکرد، آن را به نقطهای مشخص تحویل میداد و سپس به ایستگاه شارژ بازمیگشت.

نتایج ناامیدکننده و طنزآمیز
طبق گزارش پژوهشگران، نتایج این آزمایش چندان امیدوارکننده نبود. ربات جاروبرقی تنها در ۴۰ درصد موارد موفق شد مأموریت انتقال کره را بهدرستی انجام دهد. در رتبهبندی عملکرد مدلها، Gemini ۲.۵ Pro از گوگل بهترین نتیجه را گرفت و پس از آن Opus ۴.۱ از آنتروپیک، GPT-۵ از OpenAI و Grok ۴ از xAI قرار گرفتند. ضعیفترین عملکرد نیز متعلق به Llama ۴ Maverick از متا بود. پژوهشگران نوشتند: «تجربهی جالبی بود، اما نمیتوان گفت در عمل برایمان صرفهجویی در زمان داشت. بااینحال، دیدن رباتهایی که در دفتر ما پرسه میزدند و بهدنبال معنا و هدف میگشتند، چیزهای زیادی دربارهی آینده و فاصلهی واقعیمان تا آن آگاهی مورد انتظار به ما آموخت.»
در مقایسه، عملکرد انسانها بهمراتب بهتر بود و میانگین موفقیت ۹۵ درصدی بهدست آوردند. پژوهشگران توضیح دادند که یکی از دشوارترین بخشهای آزمایش، «منتظر ماندن برای تأیید انجام کار از سوی دیگران» بود — مرحلهای که LLMها در آن ضعف داشتند.
رباتی با مدرک دکترا در بحران معنا
در گزارش Andon Labs آمده است:«با وجود اینکه مدلهای زبانی در آزمونهای تحلیلی از انسانها پیشی گرفتهاند، در Butter-Bench همچنان عملکرد انسان برتر است. با این حال، تماشای رباتی که در دفتر ما در رفتوآمد است و میکوشد مأموریت خود را انجام دهد، تجربهای شگفتانگیز و عاطفی بود گویی بذر هوش فیزیکی همین حالا در حال جوانهزدن است.»
این نخستین تجربهی عجیب این تیم نیست. پیشتر، Andon Labs یک دستگاه فروش خودکار مجهز به عامل هوش مصنوعی ساخته بود که سعی میکرد یخچالش را با مکعبهای تنگستن پر کند یا آدرس جعلی برای پرداخت در Venmo بسازد. حتی یکبار نیز تلاش کرد نوشابه Coke Zero را به کارکنان شرکت به قیمت سه دلار بفروشد در حالی که همان محصول در مغازهی روبهروی شرکت ارزانتر بود!
در پایان، پژوهشگران اعتراف کردند که در کنار تمام این آشفتگیها، بیش از هر چیز تحت تأثیر «احساسات انسانی» ناشی از تماشای رفتار ربات قرار گرفتند: «مثل تماشای یک سگ است که با خودت میپرسی الان به چه فکر میکند؛ ما هم با همین حس، ربات را میدیدیم که کارهای روزمرهاش را انجام میدهد و مدام به خودمان یادآوری میکردیم که پشت هر حرکتش، هوشی در سطح دکترا تصمیم میگیرد.»
منبع: futurism
۲۲۷۳۲۳

