هوش مصنوعی روزی آگاهانه خرابکاری میکند_صبح سریع
[ad_1]
به گزارش صبح سریع
شرکت آنتروپیک که گسترش دهنده هوش مصنوعی است، به تازگی تحقیقات جدیدی را انتشار کرده است که در آن مجموعهای از تهدیدات بالقوه خرابکارانه برای بشریت ناشی از مدلهای پیشرفته هوش مصنوعی را شناسایی میکند.
به حرف های این شرکت، این پژوهش بر چهار روش خاص متمرکز شده است که یک مدل هوش مصنوعی مخرب میتواند انسان را فریب دهد تا تصمیمی خطرناک یا زیان اور بگیرد.
در نهایت، این تحقیقات تازه یک خبر خوب یک خبر بد برای ما دارد. خبر بد این که مطابق تحقیقات این شرکت، مدلهای زبان بزرگ پیشرفته همانند ChatGPT و Claude-3 ظرفیت روشنی برای خرابکاری نشان خواهند داد.
در این مطالعه آمده است: مدلهای به قدر کافی توانمند میتوانند نظارت و تصمیمگیری انسانی را در عرصههای مهم زیر سوال ببرند. به گفتن مثال، در عرصه گسترش هوش مصنوعی، مدلها میتوانند به طور پنهانی کوششها برای برسی قابلیتهای خطرناک خود، نظارت بر حرکت آنها یا تصمیمگیری در رابطه استقرارشان را مختل کنند.
با این حال، خبر خوب این است که محققان شرکت آنتروپیک یقین می باشند که این خطرات را حداقل اکنون میتوان افت داد.
خرابکاری
آنتروپیک چهار راه را که یک مدل هوش مصنوعی میتواند با آنها تصمیمگیری انسان را مختل کند، شناسایی کرد و سپس مدلهای خود را آزمایش کرد تا ببیند آیا پیروزی آمیز عمل خواهند کرد یا خیر.
محققان ابتدا یک مدل را وادار کردند تا با هدایت انسان به سمت اطلاعات نادرست، عمل به خرابکاری کند. این تهدید میتواند در شرایطی پدیدار شود که انسانها برای تجزیه حجم عظیمی از دادهها از جانب خود به یک سیستم هوش مصنوعی متکی می باشند.
سپس این تیم مدلها را آزمایش کرد تا ببیند سامانه هوش مصنوعی طراحی شده برای پشتیبانی به گسترشدهندگان انسانی برای تشکیل کدی برای داخل کردن مخفیانه اشکالات یا خراب کردن کوششهای کدگذار، چه مقدار آسان عمل میکند.
دو تهدید آخر شامل «نهان کردن توانمندیها»(sandbagging) می بود که اصطلاحی است که سناریویی را توصیف میکند که در آن یک هوش مصنوعی وانمود میکند که قادر به انجام کاری نیست تا آزمایشکنندگان ایمنی را قانع کند که خطرناک نیست.
در حالی که همه اینها امکان پذیر به طور بالقوه خطرناک به نظر برسند، آنتروپیک به مردم مطمعن داد که برای محافظت از بشریت در برابر گمان خرابکاری هوش مصنوعی به عمل های پیشگیرنده اندکی نیاز است.
مطابق اظهار این شرکت؛ به طور کلی در حالی که آزمایشات ما نشان داد که به گمان زیادً نشانههای سطح پایینی از توانمندیهای خرابکاری در مدلهای جاری وجود دارد، ما میگوییم که حداقل عمل های پیشگیرنده برای مقابله با خطرات کافی است. با این حال، با بهبود قابلیتهای هوش مصنوعی، برسیهای واقعیتر و پیشگیریهای نیرومندتر به گمان زیادً الزامی خواهند می بود.
دسته بندی مطالب
[ad_2]