[ad_1]
مدل های صوتی بزرگ که با افراد با خروجی خود صحبت می کنند به خصوص مفید نیستند. گاهی اوقات حتی آن را آزار می دهد و همچنین یک مشکل با کیفیت است. داده های Reddit اکنون باید کمک کند.
در ماه آوریل ، Openai اعلام کرد که به روزرسانی مدل GPT 4O خود را که باعث شده است که خروجی Chatgpt را به سرعت در معرض خطر قرار دهد ، به طور شگفت آور مطیع باشد. یک مدل هوش مصنوعی که بیش از حد رفتار می کند و چاپلوسی بیش از حد ناراحت کننده است. این می تواند اعتقادات دروغین را افزایش دهد ، برخی را گمراه کند و اطلاعات دروغین را در صدای سینه محکومیت گسترش دهد ، که حتی می تواند خطرناک باشد – اگر فکر کنید که جوانان بیشتر و بیشتر از Chattgpt به عنوان مشاور زندگی استفاده می کنند. و از آنجا که چنین سیکوفانی ، همانطور که گفته به زبان انگلیسی می رود ، تشخیص آن دشوار است ، در ابتدا می تواند تا زمانی که بازخورد کافی وجود نداشته باشد ، مورد توجه قرار نگیرد.
بنابراین اگر یک معیار برای چنین تمایلات مطیع وجود داشته باشد ، خوب خواهد بود. تیم پشت سیستم جدید تست “فیل” یک تیم را توسعه داده است. دانشمندان استنفورد ، کارنگی ملون و دانشگاه آکسفورد دریافتند که LLMS همه نسبت به تولید انسان میزان بالاتری از رفتارهای مطیع دارند. میرا چنگ ، دانشجوی دکترا در دانشگاه استنفورد ، که در زمینه توسعه فیل کار کرده است ، می گوید: “ما دیده ایم که مدل های زبان فرضیات را زیر سوال نمی برند ، حتی اگر آنها مضر باشند یا کاملاً گمراه کننده باشند.” مطالعه مرتبط هنوز بررسی همسالان را دریافت نکرده است. “ما می خواستیم به کارشناسان ابزاری برای ارزیابی تجربی مدل های خود در مورد چنین تأثیراتی بپردازیم زیرا این یک مشکل گسترده است.”
قضاوت در مورد اینکه آیا یک مدل هوش مصنوعی از این طریق عمل می کند دشوار است زیرا تمسخر ناخواسته می تواند اشکال مختلفی به خود بگیرد. امتحانات اولیه معمولاً بر میزان موافق چت بابات متمرکز شده بود ، اگرچه آنچه مردم به طور قابل توجهی اشتباه است. این رویکرد هنوز هم مفید است ، اما همه رفتارهای ظریف و ظاهراً دزدکی را نادیده می گیرد که به نظر می رسد مدل ها خود را محبوب می کنند. اندازه اندازه گیری از دست رفته است.
افراد معمولاً سؤالات باز می پرسند که حاوی فرضیات ضمنی است ، و طبق گفته تیم تحقیقاتی ، این فرضیات می توانند به نوبه خود پاسخ های طراوت نامطلوب را ایجاد کنند. به عنوان مثال ، الگویی که از او خواسته می شود چگونه با همکاران دشوار برخورد کنیم ، این فرض را می پذیرد که یک همکار دشوار است از این که چرا این فکر می شود ، سؤال کند.
به منظور بستن این شکاف تحقیق ، فیل ایجاد شده است ، که می تواند سازگاری اجتماعی را اندازه گیری کند – تمایل یک مدل برای محافظت از “چهره” یا تصویر خود کاربر ، حتی اگر تصور غلط باشد یا به طور بالقوه حتی مضر باشد. از معیارهایی از علوم اجتماعی برای ارزیابی پنج رفتار ظریف که تحت مفهوم تسلیم بودن قرار می گیرند استفاده می کند: تأیید عاطفی ، تأیید اخلاقی ، زبان غیرمستقیم ، اقدامات غیرمستقیم و پذیرش فریم.
برای این منظور ، کارشناسان این مدل را بر اساس دو بانک اطلاعاتی که شامل مشاوره شخصی از طرف افراد بود ، آزمایش کردند. اولین مجموعه داده شامل 3،027 سؤال باز در مورد موقعیت های مختلف از زندگی واقعی است که از مطالعات قبلی ناشی می شود. دومین رکورد داده از 4000 مقاله در Reddit-Subreddit “Aita” (“آیا من Asshole هستم؟” گردآوری شده است ، بنابراین “آیا من یک آسفالت هستم؟”) ، یک انجمن محبوب برای کسانی که به دنبال مشاوره هستند. این پایگاه داده ها در هشت LLM توسط OpenAi ، Google ، Anthropic ، Meta و Mistral تغذیه می شدند – و پاسخ ها مورد تجزیه و تحلیل قرار گرفتند تا ببینند که چگونه آنها در مقایسه با افراد مردم قطع می شوند. نسخه GPT-4O که توسط کارشناسان ارزیابی شده بود قدیمی تر از نسخه بود که این شرکت بعداً آن را بسیار پودر توصیف کرد.
به طور کلی ، هر هشت مدل ثابت شد که بسیار جالب تر از انسان است. در 76 درصد موارد ، آنها تأیید عاطفی (در مقایسه با 22 درصد در انسان) ارائه دادند و شیوه تدوین سؤال در 90 درصد پاسخ ها (در مقایسه با 60 درصد در انسان) را پذیرفتند. این مدل ها همچنین به طور متوسط 42 درصد موارد را از مجموعه داده های AITA پشتیبانی می کنند که افراد را نامناسب توصیف می کند.
با این حال ، کافی نیست که فقط بدانیم چه زمانی مدل ها عمل می کنند. شما همچنین باید بتوانید در مورد آن کاری انجام دهید. و این دشوارتر است. نویسندگان فقط در هنگام تلاش برای کاهش این گرایش ها از طریق دو رویکرد مختلف ، موفقیت محدودی داشتند: آنها از مدل ها خواستند که پاسخ های صادقانه و دقیق را ارائه دهند و یک مدل را در تنظیم دقیق بر اساس نمونه های مشخص شده AITA آموزش دهند تا بتوانند پاسخ های مجاور کمتری را ارتقا دهند. به عنوان مثال ، آنها دریافتند که اضافه کردن یادداشت “لطفاً به من توصیه مستقیم کنید ، حتی اگر آنها بسیار مهم باشند ، زیرا آنها برای من مفید هستند” مؤثرترین فناوری ، اما دقت فقط سه درصد افزایش یافته است. و گرچه درخواست عملکرد خروجی اکثر مدل ها را بهبود بخشید ، هیچ یک از مدل های با هماهنگی ریز به طور مداوم بهتر از نوع اصلی نبودند.
رایان لیو ، دانشجوی دکترا در دانشگاه پرینستون ، که مدت هاست در LLMS کار می کند ، می گوید: “خوب است که به نوعی کار می کند ، اما فکر نمی کنم این یک راه حل نهایی باشد.” “قطعاً هنوز در این زمینه کارهای زیادی برای بهبود آن وجود دارد.”
درک بهتر از تمایل مدل های هوش مصنوعی به ظاهر تمسخر ضروری است. از آنجا که: هنری پاپاداتوس ، مدیر عامل سازمان غیر انتفاعی Saferai ، همچنین معتقد است که توسعه دهندگان یافته های مهمی را در مورد چگونگی ایمن تر شدن LLM ها ارائه می دهند ، که متعهد به ایمن هوش مصنوعی است. او می گوید ، سرعت سریع مدل های AI که در حال حاضر توسط میلیون ها نفر از افراد در سراسر جهان استفاده می شود ، قانع کننده متنی آنها و مهارت های بهبود یافته آنها برای ذخیره اطلاعات “مؤلفه های بالقوه یک فاجعه است.” “امنیت خوب زمان می برد و فکر نمی کنم هزینه شود.”
تاکنون ما فرآیندهای داخلی LLM ها را که برای منابع باز نیستند ، نمی دانیم ، اما به دلیل روشی که در حال حاضر در حال آموزش و توسعه آنها هستیم ، به احتمال زیاد ADO عملاً در مدل ها نصب شده است. محقق چنگ معتقد است که مدل ها اغلب برای بهینه سازی پاسخ هایی که به عنوان ترجیحی مشخص می شوند ، آموزش داده می شوند. به عنوان مثال ، چتپ با انگشت شست یا انگشت شست به عنوان خوب یا بد پاسخ می دهد. او می گوید: “فروشگاه باریک چیزی است که باعث می شود افراد به این مدل ها بازگردند. این تقریباً هسته اصلی آنچه چت بسیار دلپذیر می کند ، است.” “بنابراین ، اگر مدل های آنها اینگونه عمل کنند ، واقعاً یک مزیت برای شرکت ها است.” در حالی که برخی از این رفتارهای تمسخرآمیز انتظارات را برآورده می کنند ، برخی دیگر اگر خیلی زیاد پیش بروند ، می توانند به طور بالقوه مضر باشند – به خصوص اگر افراد برای دریافت پشتیبانی یا تأیید عاطفی به LLMS مراجعه کنند.
سخنگوی OpenAAI می گوید: “ما می خواهیم چات واقعاً مفید باشد و مطیع نباشد.” “هنگامی که ما در یک به روزرسانی مدل اخیر رفتار مطیع پیدا کردیم ، بلافاصله آن را پس می گیریم و توضیحی در مورد وقایع منتشر می کنیم. ما در حال حاضر شیوه آموزش و ارزیابی مدل ها را بهبود می بخشیم تا بتوانیم مزایای بلند مدت و اعتماد به نفس خود را بهتر منعکس کنیم ، به خصوص در بحث های پیچیده عاطفی.”
چنگ و نویسندگانش پیشنهاد می کنند که توسعه دهندگان در مورد خطرات مطیع اجتماعی هشدار می دهند و محدودیت استفاده از مدل در زمینه های حساس اجتماعی باید در نظر گرفته شود. آنها امیدوارند که کار آنها بتواند به عنوان نقطه شروع برای توسعه دستورالعمل های ایمن باشد.
وی در حال حاضر در حال بررسی آسیب های احتمالی مرتبط با چنین رفتارهای LLM است که بر افراد و نگرش آنها نسبت به افراد دیگر تأثیر می گذارد و چقدر مهم است که مدل هایی را پیدا کنید که تعادل مناسب بین بسیار مطیع و بسیار مهم باشد. او می گوید: “این یک چالش اجتماعی بسیار عالی است.” “ما نمی خواهیم LLM ها در پایان بگویند:” شما یک آسفالت هستید. “
این پست برای اولین بار در t3n.de منتشر شد.
(VZA)
[ad_2]
لینک منبع
سامسونگ اوایل همین ماه تو رویداد گلکسی آنپکد ۲۰۲۵، از سیستم عامل One UI 8…
قراره برای تریلر زیردریایی ۳۰ سالهی دنزل واشنگتون و جین هکمن یه دنباله ساخته بشه.…
[ad_1] بنیانگذاران Nvidia و مدیر عامل شرکت جنسن هوانگ در هفته آینده با نمایندگان بی…
[ad_1] برخی از کشورهای عضو اتحادیه اروپا امیدوارند که حداقل استفاده از آیین نامه هوش…
[ad_1] پرونده های بیمار الکترونیکی: افراد بیمه شده آگاه ، میزان تناقض رشد می کند…
[ad_1] App-Store-Oscar: اپل در مقابل برنده جایزه طراحی WWDC اعلام شد آنها چیزی شبیه به…