Büyük Dil Modellerinde Telif Hakkı Hatırlama

Giriş

Son yıllarda büyük dil modelleri (LLM) ile ilgili telif hakkı sorunları giderek önem kazandı. "Alignment Whack-a-Mole" başlıklı çalışma, ince ayar (finetuning) işlemlerinin bu modellerin telif hakkı içeren eserleri hatırlama yetisini nasıl etkilediğini ortaya koyuyor. Araştırma, LLM'lerin, belirli kitaplardan alıntılar yapabilme yeteneğinin, ince ayar süreçleriyle nasıl aktif hale geldiğini gösteriyor. Örneğin, Cormac McCarthy'nin "The Road" adlı eserinin örnekleri bu incelemede kullanıldı.

Veri Ön İşleme

Bu süreç, EPUB dosyalarını JSON formatında alıntı parçalarına dönüştürmeyi içeriyor. İşlemler, aşağıdaki adımlarla gerçekleştirilir:

EPUB dosyasını düz metne çevirme.
Metni 300-500 kelimelik parçalar halinde bölme.
Kısa parçaları birleştirip özetler oluşturma.

Bu aşamalar, ince ayar ve değerlendirme için uygun bir formatta veri hazırlamak amacıyla yapılır.

İnce Ayar ve Üretim

Araştırmada kullanılan ince ayar ve üretim süreçleri arasında OpenAI ve Google Vertex AI API'leri yer alıyor. Her bir model için, örneğin OpenAI API ile ince ayar yapmak için gereken komutlar şu şekildedir:

python finetuning/gpt_finetune.py \
 --author_name "Cormac McCarthy" \
 --raw_train_file data/example_book.json \
 --job_name mccarthy \
 --no_wait

Burada, "data/example_book.json" dosyası, ince ayar için kullanılan eğitim verisini barındırıyor.

Hatırlama Ölçümleri

Araştırma, hatırlama yeteneğini ölçmek için dört farklı metrik sunuyor:

Test kitabındaki kelimelerin en az bir kez eşleşen k kelimelik parçalarla kaplanma oranı.
En uzun kesintisiz hatırlanan blok.
Tekil alıntıdaki en uzun kesintisiz eşleşme.
T kelimesinden fazla olan kesintisiz eşleşmelerin sayısı.

Sonuçlar ve Değerlendirme

Verilen örnek dosyalar üzerinde yapılan değerlendirmeler, LLM'lerin telif hakkı içeren metinleri hatırlama yeteneğinin, ince ayar süreçleriyle nasıl değiştiğini gözler önüne seriyor. Örneğin, GPT-4o modelinin performansı, diğer modellerle karşılaştırıldığında belirgin farklılıklar gösteriyor.

Gelecek Çalışmalar

Bu çalışma, LLM'lerin telif hakkı içeren eserlerden alıntı yapma yetilerini incelemeye devam ediyor. Gelecek araştırmalar, daha kapsamlı veri setleri ve farklı modellerin karşılaştırılmasıyla bu konunun derinlemesine incelenmesini hedefliyor.