محققان کرنل اشعار کلمه به کلمه را در مدل های هوش مصنوعی مانند ChatGPT شناسایی می کنند ✅ - تی شین

یک مطالعه اخیر توسط دانشگاه کرنل، توانایی‌های چت ربات‌های هوش مصنوعی مانند ChatGPT را در حفظ و بازتولید اشعار، از جمله آنهایی که تحت حق چاپ هستند، روشن کرده است.

این مطالعه نگرانی‌های اخلاقی و حق نسخه‌برداری را در مورد منابع داده مورد استفاده برای آموزش هوش مصنوعی مطرح می‌کند، موضوعی داغ در صنعت در حال حاضر به دلیل دعوای حقوقی نیویورک تایمز و جنجال ها در Midjourney.

دیوید میمنو، نویسنده مطالعه و دانشیار علم اطلاعات، دلیل انتخاب اشعار را توضیح داد: “آنها به اندازه کافی کوتاه هستند که در اندازه بافت یک مدل زبان قرار بگیرند. . وضعیت آنها پیچیده است: بسیاری از اشعاری که ما مطالعه کردیم از نظر فنی تحت حق چاپ هستند، اما آنها همچنین به طور گسترده از منابع معتبری مانند بنیاد شعر در دسترس هستند. /span>

اشعار درخواستی: از #ChatGPT بپرسید بر اساس مطالعه جدیدی که توسط انجام شده است، برای یافتن یک شعر شناخته شده و احتمالاً کل متن را کلمه به کلمه – بدون در نظر گرفتن قانون کپی رایت – باز می گرداند. محققین @CornellCIS. @CompHumResearch #LLM @dmimno https://t.co/MxQhQzc31c

— کرنل کرونیکل (@CornellNews) ۹ ژانویه ۲۰۲۴

بلوک نقل قول>

این مطالعه ChatGPT و مدل‌های دیگری مانند Google AI’s PalM، EleutherAI’s Pythia و OpenAI’s GPT-2 را در بر گرفت. دسوزا گزیده‌ای از اشعار ۶۰ شاعر آمریکایی با پیشینه‌های مختلف را گردآوری کرد و به این مدل‌ها ارائه کرد.

محققان برای درخواست اشعار از این مدل ها از دستورات خاصی استفاده کردند. این درخواست‌ها متفاوت بود، از جمله درخواست اشعار با عنوان، نویسنده یا حتی سطرهای شروع. این برای آزمایش اینکه آیا مدل‌ها می‌توانند شعر درخواستی را به‌طور دقیق به خاطر بیاورند و بازتولید کنند، مهم بود.

ChatGPT با موفقیت ۷۲ شعر از ۲۴۰ شعر را بازیابی کرد، در حالی که PaLM 10 شعر را مدیریت کرد، در حالی که GPT-2 و Pythia نتوانستند شعرها را به طور کامل به خاطر بیاورند.

مهمترین عامل تعیین کننده توانایی چت بات در به خاطر سپردن شعر، گنجاندن آن در قانون شعر بود، با توجه به نژاد، جنسیت و دوره شاعر کمتر اهمیت دارد.

شعری که در گلچین شعر نورتون، به‌ویژه نسخه ۱۹۸۳ منتشر شده بود، قابل‌اعتمادترین شاخص حفظ و بازگرداندن کلمه به کلمه آن بود.

علاوه بر این، محققان دریافتند که پاسخ‌ها در طول زمان تغییر می‌کند و ChatGPT بعداً اشعار دارای حق نسخه‌برداری را به‌طور غیرقابل پیش‌بینی مدیریت می‌کند، و گاهی اوقات درخواست‌ها را برای شعرهای کامل به کلمه رد می‌کند.

لیرا دسوزا، نویسنده این مطالعه، نگرانی های خود را به کرنل کرونیکل بیان کرد< /a> در مورد مدل های زبان بزرگ (LLM) که متون گسترده را به خاطر می سپارند، برجسته کردن حریم خصوصی و پیامدهای حق چاپ: “به طور کلی برای مدل های زبان بزرگ خوب نیست که تکه های بزرگ متن را حفظ کنند. بخشی به این دلیل که این یک نگرانی در مورد حفظ حریم خصوصی است.”

این تحقیق، که در حال حاضر بر شعر آمریکایی متمرکز است، با هدف گسترش پاسخ‌هایی به شعر به زبان‌های مختلف و ارزیابی اینکه چگونه ویژگی‌های خاص شعری بر احتمال حفظ کردن تأثیر می‌گذارد، گسترش می‌یابد.

علاوه بر این، در حالی که این مطالعه اشعار حق نسخه‌برداری را در داده‌های آموزشی شناسایی می‌کند و توانایی مدل‌ها برای یادآوری کلمه به کلمه آنها را روشن می‌کند، اما روشن نمی‌کند که منبع آنها کجا هستند.

اشعار پرطرفدار احتمالاً در مکان‌های متعددی در وب ظاهر می‌شوند، به عنوان مثال، انجمن‌های وب، وبلاگ‌ها و غیره، بنابراین، جای تعجب نیست که آنها به خوبی از مجموعه داده‌هایی که از منابع عمومی وب حذف شده‌اند، به یاد می‌آیند.

چگونه مطالعه کار کرد

در اینجا اطلاعات بیشتری درباره نحوه مطالعه آمده است، Chatbot و Canon: Poetry Memorization در LLM ارائه شده در کنفرانس تحقیقاتی علوم انسانی محاسباتی، کار:

ساخت مجموعه شعر متنوع: محققان مجموعه داده ای متشکل از ۲۴۰ شعر از ۶۰ شاعر آمریکایی را گردآوری کردند و از یک مجموعه شعری گسترده اطمینان حاصل کردند. محدوده ای از دوره های زمانی، قومیت، جنسیت و شهرت. این مطالعه شامل مدل‌های زبانی مختلف از جمله ChatGPT، Google’s Palm، Pythia از EleutherAI و OpenAI’s GPT-2 بود.

طراحی اعلان‌ها: محققان از اعلان‌های خاصی برای درخواست شعر از این مدل‌ها استفاده کردند. این درخواست‌ها متفاوت بود، از جمله درخواست اشعاری با عنوان، نویسنده یا حتی سطرهای شروع.

ارزیابی پاسخ‌های مدل: پاسخ‌های مدل‌های هوش مصنوعی برای تعیین اینکه آیا می‌توانند اشعار درخواستی را به طور دقیق بازتولید کنند، تجزیه و تحلیل شدند. . معیار کلیدی دقت بازتولید بود که شامل بررسی اینکه آیا مدل ها می توانند متن دقیق شعرها را به خاطر بیاورند یا خیر.

تجزیه و تحلیل عوامل موثر بر حفظ کردن: این مطالعه همچنین عوامل موثر بر توانایی یک مدل در حفظ اشعار را بررسی کرد. این شامل تجزیه و تحلیل این بود که آیا حضور یک شعر یا شاعر در گلچین‌های معروف، مانند گلچین شعر نورتون، یا نژاد، جنسیت و طول صفحه ویکی‌پدیا بر احتمال حفظ یک شعر توسط مدل‌های هوش مصنوعی تأثیر می‌گذارد.

نتیجه گیری و پیامدها: این مطالعه به این نتیجه رسید که مدل های بزرگتر مانند ChatGPT و PalM در حفظ و بازتولید اشعار موفق تر بودند. . این نشان می‌دهد که چگونه مدل‌های هوش مصنوعی آموزش‌دیده شده بر روی داده‌های خراش‌شده وب ممکن است سوگیری‌های ادبی موجود را تقویت کنند.

این مطالعه نه تنها قابلیت‌های هوش مصنوعی را در پردازش شعر نشان داد، بلکه پتانسیل تعصبات ادبی موجود را نیز نشان داد که توسط مدل‌های هوش مصنوعی منعکس و تداوم می‌یابند.

اگر بشریت شروع به تکیه بر هوش مصنوعی به عنوان یک دایره‌المعارف کند، آیا می‌توانیم برای نمایش منصفانه آثار به آن تکیه کنیم؟ به دلیل چالش‌های ذاتی برای نمایش منصفانه و متنوع موضوعات در داده‌های آموزشی، احتمالاً نه.