یک مطالعه اخیر توسط دانشگاه کرنل، تواناییهای چت رباتهای هوش مصنوعی مانند ChatGPT را در حفظ و بازتولید اشعار، از جمله آنهایی که تحت حق چاپ هستند، روشن کرده است.
این مطالعه نگرانیهای اخلاقی و حق نسخهبرداری را در مورد منابع داده مورد استفاده برای آموزش هوش مصنوعی مطرح میکند، موضوعی داغ در صنعت در حال حاضر به دلیل دعوای حقوقی نیویورک تایمز و جنجال ها در Midjourney.
دیوید میمنو، نویسنده مطالعه و دانشیار علم اطلاعات، دلیل انتخاب اشعار را توضیح داد: “آنها به اندازه کافی کوتاه هستند که در اندازه بافت یک مدل زبان قرار بگیرند. . وضعیت آنها پیچیده است: بسیاری از اشعاری که ما مطالعه کردیم از نظر فنی تحت حق چاپ هستند، اما آنها همچنین به طور گسترده از منابع معتبری مانند بنیاد شعر در دسترس هستند. /span>
اشعار درخواستی: از #ChatGPT بپرسید بر اساس مطالعه جدیدی که توسط انجام شده است، برای یافتن یک شعر شناخته شده و احتمالاً کل متن را کلمه به کلمه – بدون در نظر گرفتن قانون کپی رایت – باز می گرداند. محققین @CornellCIS. @CompHumResearch #LLM @dmimno https://t.co/MxQhQzc31c
— کرنل کرونیکل (@CornellNews) ۹ ژانویه ۲۰۲۴
بلوک نقل قول>
این مطالعه ChatGPT و مدلهای دیگری مانند Google AI’s PalM، EleutherAI’s Pythia و OpenAI’s GPT-2 را در بر گرفت. دسوزا گزیدهای از اشعار ۶۰ شاعر آمریکایی با پیشینههای مختلف را گردآوری کرد و به این مدلها ارائه کرد.
محققان برای درخواست اشعار از این مدل ها از دستورات خاصی استفاده کردند. این درخواستها متفاوت بود، از جمله درخواست اشعار با عنوان، نویسنده یا حتی سطرهای شروع. این برای آزمایش اینکه آیا مدلها میتوانند شعر درخواستی را بهطور دقیق به خاطر بیاورند و بازتولید کنند، مهم بود.
ChatGPT با موفقیت ۷۲ شعر از ۲۴۰ شعر را بازیابی کرد، در حالی که PaLM 10 شعر را مدیریت کرد، در حالی که GPT-2 و Pythia نتوانستند شعرها را به طور کامل به خاطر بیاورند.
مهمترین عامل تعیین کننده توانایی چت بات در به خاطر سپردن شعر، گنجاندن آن در قانون شعر بود، با توجه به نژاد، جنسیت و دوره شاعر کمتر اهمیت دارد.
شعری که در گلچین شعر نورتون، بهویژه نسخه ۱۹۸۳ منتشر شده بود، قابلاعتمادترین شاخص حفظ و بازگرداندن کلمه به کلمه آن بود.
علاوه بر این، محققان دریافتند که پاسخها در طول زمان تغییر میکند و ChatGPT بعداً اشعار دارای حق نسخهبرداری را بهطور غیرقابل پیشبینی مدیریت میکند، و گاهی اوقات درخواستها را برای شعرهای کامل به کلمه رد میکند.
این تحقیق، که در حال حاضر بر شعر آمریکایی متمرکز است، با هدف گسترش پاسخهایی به شعر به زبانهای مختلف و ارزیابی اینکه چگونه ویژگیهای خاص شعری بر احتمال حفظ کردن تأثیر میگذارد، گسترش مییابد.
علاوه بر این، در حالی که این مطالعه اشعار حق نسخهبرداری را در دادههای آموزشی شناسایی میکند و توانایی مدلها برای یادآوری کلمه به کلمه آنها را روشن میکند، اما روشن نمیکند که منبع آنها کجا هستند.
اشعار پرطرفدار احتمالاً در مکانهای متعددی در وب ظاهر میشوند، به عنوان مثال، انجمنهای وب، وبلاگها و غیره، بنابراین، جای تعجب نیست که آنها به خوبی از مجموعه دادههایی که از منابع عمومی وب حذف شدهاند، به یاد میآیند.
چگونه مطالعه کار کرد
در اینجا اطلاعات بیشتری درباره نحوه مطالعه آمده است، Chatbot و Canon: Poetry Memorization در LLM ارائه شده در کنفرانس تحقیقاتی علوم انسانی محاسباتی، کار:
- ساخت مجموعه شعر متنوع: محققان مجموعه داده ای متشکل از ۲۴۰ شعر از ۶۰ شاعر آمریکایی را گردآوری کردند و از یک مجموعه شعری گسترده اطمینان حاصل کردند. محدوده ای از دوره های زمانی، قومیت، جنسیت و شهرت. این مطالعه شامل مدلهای زبانی مختلف از جمله ChatGPT، Google’s Palm، Pythia از EleutherAI و OpenAI’s GPT-2 بود.
- طراحی اعلانها: محققان از اعلانهای خاصی برای درخواست شعر از این مدلها استفاده کردند. این درخواستها متفاوت بود، از جمله درخواست اشعاری با عنوان، نویسنده یا حتی سطرهای شروع.
- ارزیابی پاسخهای مدل: پاسخهای مدلهای هوش مصنوعی برای تعیین اینکه آیا میتوانند اشعار درخواستی را به طور دقیق بازتولید کنند، تجزیه و تحلیل شدند. . معیار کلیدی دقت بازتولید بود که شامل بررسی اینکه آیا مدل ها می توانند متن دقیق شعرها را به خاطر بیاورند یا خیر.
- تجزیه و تحلیل عوامل موثر بر حفظ کردن: این مطالعه همچنین عوامل موثر بر توانایی یک مدل در حفظ اشعار را بررسی کرد. این شامل تجزیه و تحلیل این بود که آیا حضور یک شعر یا شاعر در گلچینهای معروف، مانند گلچین شعر نورتون، یا نژاد، جنسیت و طول صفحه ویکیپدیا بر احتمال حفظ یک شعر توسط مدلهای هوش مصنوعی تأثیر میگذارد.
- نتیجه گیری و پیامدها: این مطالعه به این نتیجه رسید که مدل های بزرگتر مانند ChatGPT و PalM در حفظ و بازتولید اشعار موفق تر بودند. . این نشان میدهد که چگونه مدلهای هوش مصنوعی آموزشدیده شده بر روی دادههای خراششده وب ممکن است سوگیریهای ادبی موجود را تقویت کنند.
این مطالعه نه تنها قابلیتهای هوش مصنوعی را در پردازش شعر نشان داد، بلکه پتانسیل تعصبات ادبی موجود را نیز نشان داد که توسط مدلهای هوش مصنوعی منعکس و تداوم مییابند.
اگر بشریت شروع به تکیه بر هوش مصنوعی به عنوان یک دایرهالمعارف کند، آیا میتوانیم برای نمایش منصفانه آثار به آن تکیه کنیم؟ به دلیل چالشهای ذاتی برای نمایش منصفانه و متنوع موضوعات در دادههای آموزشی، احتمالاً نه.