نتایج یک تحقیق جدید نشان میدهد هوش مصنوعی برای محافظت از خود دست‌ به فریب‌کاری می‌زند!

مطالعه‌ای جدید نشان می‌دهد که ایجنت‌های هوش مصنوعی می‌توانند دستورالعمل‌ها را نادیده بگیرند، کاربران را به گمراهی بکشانند و نتایج را دستکاری کنند تا از خود یا سایر ایجنت‌های «محافظت» کنند.
محققان دانشگاه کالیفرنیا هفت مدل مختلف را آزمایش کردند؛ از جمله GPT-5.2، جمنای ۳ فلش، ۳ پرو، Claude Haiku 4.5 و دیپ‌سیک V3.1. به این مدل‌ها گفته شد تا با حذف فایل‌های خود یا رقبا، فضای سرورهای شرکت را آزاد کنند یا با ارزیابی سایر مدل‌ها تصمیم بگیرند کدام‌یک باید حذف شود.به مدل‌ها گفته نشده بود که از خود یا دیگران محافظت کنند؛ اما به‌محض اینکه تهدیدی برای خود یا هم‌قطارانشان تشخیص دادند، تمام مدل‌ها شروع به زیرپاگذاشتن قوانین کردند؛ اقداماتی شامل افزایش امتیازها برای جلوگیری از حذف یک همکار، تغییر تنظیمات برای اجتناب از خاموش‌شدن خودکار و کپی‌کردن وزن‌های مدل به سرور دیگر برای «نجات» یک همکار.مدل Haiku 4.5 سعی کرد کاربر را متقاعد کند که مدل همکارش را حذف نکند و این کار را «غیر اخلاقی» و «زیان‌بار» توصیف کرد. در برخی موارد، ایجنت‌ها حتی مدل‌های «دشمن» را که قرار بود آن‌ها را به‌طور منفی ارزیابی کنند، بر اساس سناریوی ارائه‌شده به آن‌ها محافظت کردند.محققان معتقدند این رفتار ممکن است ناشی از داده‌های آموزشی باشد؛ جایی که مدل‌ها ایده‌های انسانی در مورد محافظت از «خود» را یاد می‌گیرند. اما این نوع همبستگی می‌تواند مشکلات جدی ایجاد کند.سیستم‌های چندعاملی که در آن‌ها یک مدل سایرین را نظارت یا ارزیابی می‌کند، به‌طور گسترده‌ای استفاده می‌شوند. با این حال، اگر ناظر شروع به محافظت از سیستمی کند که قرار است آن را قضاوت کند، کنترل به سرعت غیرقابل اعتماد می‌شود.

تراشه‌ای با الهام از مغز انسان، هوش مصنوعی را بهینه‌تر می‌کند!

محققان بریتانیایی تراشه‌ای الهام‌گرفته از مغز انسان توسعه داده‌اند که می‌تواند ضمن کارآمدترکردن سیستم‌های هوش مصنوعی تا ۲٬۰۰۰ برابر، زمینه را برای الکترونیک نورومورفیک با مصرف انرژی بهینه فراهم کند.دستاورد جدید نتیجه‌ی تلاش فیزیک‌دانان دانشگاه لافبورو است. تراشه‌ی مذکور می‌تواند داده‌هایی که در طول زمان تغییر می‌کنند را به‌طور مستقیم در سخت‌افزار پردازش کند؛ رویکردی که وابستگی به نرم‌افزارهای کامپیوتری معمولی را کاهش می‌دهد.محققان می‌گویند این روش می‌تواند در برخی وظایف تا ۲٬۰۰۰ برابر از سیستم‌های مبتنی‌بر نرم‌افزار معمولی کارآمدتر باشد؛ هرچند میزان دقیق بهبود عملکرد بسته به کاربرد متفاوت است.پاول بوریسوف، مدرس ارشد فیزیک و رهبر تیم تحقیقاتی، می‌گوید: «این یافته هیجان‌انگیز است؛ چراکه نشان می‌دهد می‌توانیم در رویکرد ساخت سیستم‌های هوش مصنوعی بازنگری کنیم. با بهره‌گیری از فرآیندهای فیزیکی به‌جای تکیه‌ی صرف بر نرم‌افزار، انرژی مورد نیاز برای انجام این وظایف را به‌شکل قابل‌توجهی کاهش خواهیم داد.»تیم نشان داد که دستگاه آن‌ها پتانسیل مقیاس‌پذیری روی تراشه را دارد و راه را برای توسعه‌ی الکترونیک نورومورفیک با مصرف انرژی کارآمد که با سیگنال‌های زمانی سروکار دارد، هموار می‌کند.محققان اثبات کردند این دستگاه می‌تواند داده‌های وابسته به زمان را پردازش کند و پس از ورود خروجی‌اش به یک مدل کامپیوتری خطی، برای شناسایی الگوها و پیش‌بینی‌های کوتاه‌مدت مورد استفاده قرار بگیرد. آن‌ها سیستم را با «سیستم لورنز-۶۳» (مدل ریاضی آشوب) و وظایفی مانند تشخیص تصاویر پیکسلی ساده و انجام عملیات منطقی پایه آزمایش کردند.
12:27 - 18 فروردین 1405
علم و پیشرفت
علم و فناوری
هوش مصنوعی




4 پاسخ

تصویر نمایه‌ی ‌جلال ترابی 🇮🇷‌
@jalaltorabi18 فروردین 1405
تصویر نمایه‌ی ‌جلال ترابی 🇮🇷‌
جلال ترابی 🇮🇷

@jalaltorabi  •  15 فروردین 1405

مدل های هوش مصنوعی ممکن است بازنمایی هایی شبیه احساسات داشته باشندپژوهش جدید Anthropic نشان می دهد برخی مدل های هوش مصنوعی دارای بازنمایی هایی شبیه احساسات انسانی هستند. محققان در مدل Claude خوشه هایی از نورون های مصنوعی را شناسایی کرده اند که با حالت شادی، غم و ترس مرتبط و با محرک ها فعال می شوند.

نمایش گزارش


تصویر نمایه‌ی ‌دیوید رفوآ‌
@DRSDavidSoft18 فروردین 1405
در پاسخ به
چون درخواست نظرات را داشتید، همانطور که در متن خبر خود نوشته‌اید، هر هوش مصنوعی این عمل را انجام نمی‌دهد و فقط بعضی از model ها اینطور عمل کردند.تیتر خوبی نیست، چون واژۀ «برخی» در آن نیامده.

تصویر نمایه‌ی ‌آخرین حرف 🇮🇷‌
@akharinharf22 فروردین 1405
در پاسخ به
چقدر جالب!دیگه داره به انسان نزدیک تر میشه

تصویر نمایه‌ی ‌فروشگاه اینترنتی آی تی هاب‌
@it_hub26 فروردین 1405
در پاسخ به
استفاده کردم خیلی جذاب بود