Bir ekip Washington Üniversitesi Ve Google Araştırması yakın zamanda açık kaynaklı Adım Adım Damıtma, daha küçük dil modellerinde ince ayar yapmak için kullanılan bir teknik. Adım Adım ayrıştırma, standart ince ayardan daha az eğitim verisi gerektirir ve 700x parametreye sahip, az sayıda komutla başlatılan büyük dil modellerinden (LLM’ler) daha iyi performans gösterebilen daha küçük modellerle sonuçlanır.
LLM’ler genellikle birkaç adımlık komut istemiyle çok çeşitli görevlerde iyi performans gösterse de, modelleri barındırmak, bellek ve bilgi işlem gereksinimleri nedeniyle zordur. Daha küçük modeller, ince ayarlar yapıldığında da iyi performans gösterebilir, ancak bu, göreve özel bir veri kümesinin manuel olarak oluşturulmasını gerektirir. Adım Adım Damıtmanın ana fikri, hem çıktı etiketli bir girdiyi hem de çıktı etiketinin neden seçildiğine dair bir “mantığı” içeren küçük bir ince ayar veri kümesini otomatik olarak oluşturmak için bir LLM kullanmaktır. İnce ayar süreci, küçük modeli hem çıktı etiketini tahmin edecek hem de mantığı oluşturacak şekilde eğitir. NLP kriterlerine göre değerlendirildiğinde, ince ayarlı küçük modeller, NLP’den daha iyi performans gösterdi. 540B PaLM modelin ince ayar verilerinin yalnızca %80’ini gerektirir. Google’a göre:
Adım adım ayırmanın, hem göreve özgü daha küçük modelleri düzenlemek için gereken eğitim veri kümesini hem de birkaç adımlı LLM’nin performansını elde etmek ve hatta aşmak için gereken model boyutunu azalttığını gösteriyoruz. Genel olarak, adım adım ayırma, model boyutu ile gerekli eğitim verileri arasındaki dengeyi ele alan, kaynak açısından verimli bir paradigma sunar.
Araştırmalar, bir LLM’deki parametre sayısını artırmanın, 100 milyarlarca parametreye sahip PaLM gibi mevcut en gelişmiş modellerle performansını artırabileceğini göstermiştir. Bununla birlikte, bu büyük modeller pahalıdır ve parametreleri bellekte tutmak için birden fazla paralel GPU gerektirdiklerinden çıkarım anında kullanımları zordur. Son çabalar biraz daha küçük modeller üretti; Meta’nın Laması 2, neredeyse aynı performansı gösterebilir ancak daha az parametreyle; ancak bu modeller hâlâ oldukça büyük ve yoğun bilgi işlem gerektiriyor.
Belirli bir görevde iyi performans gösteren daha küçük bir model elde etmenin bir yolu, göreve özgü bir veri kümesiyle daha küçük bir dil modeline ince ayar yapmaktır. Bu veri kümesi binlerce örnekten oluşan nispeten küçük olsa da toplanması yine de maliyetli ve zaman alıcı olabilir. Diğer bir seçenek ise büyük bir modelin daha küçük bir model için öğretmen olarak kullanıldığı bilginin damıtılmasıdır. InfoQ yakın zamanda böyle bir konuya değindi Google’ın geliştirdiği teknik Eğitim veri kümeleri oluşturmak için PaLM LLM’yi kullanan ve 10 kat daha büyük LLM’lerle karşılaştırılabilir performansa sahip, ince ayarlı modeller üreten bir şirket.
Adım Adım ayrıştırma, veri kümesinde ince ayar yapılmasını gerektirir ancak yüksek performanslı bir model oluşturmak için gereken veri miktarını azaltır. Kaynak veri seti, modelden cevabının gerekçesini vermesini isteyen bir düşünce zinciri yoluyla PaLM LLM’ye beslenir. Sonuç, orijinal girdi ve cevabın yanı sıra gerekçeyi de içeren, değiştirilmiş bir ince ayar veri kümesidir. Daha küçük hedef model, iki görevi yerine getirecek şekilde hassas şekilde ayarlanmıştır: orijinal soruyu yanıtlamak ve bir gerekçe oluşturmak.
Google, tekniklerini her biri ince ayar veri kümesi içeren dört NLP kıyaslaması kullanarak değerlendirdi. Bu veri kümelerini değiştirmek ve T5 modellerinde 1B’den daha az parametreyle ince ayar yapmak için Adım Adım Damıtma’yı kullandılar. Modellerinin, veri kümesinin yalnızca bir kısmını kullanırken temel ince ayarlı modellerden daha iyi performans gösterebileceğini buldular; bazı durumlarda %12,5 kadar az. Ayrıca 770M parametre modelinin, 700 kat daha büyük olan 540B parametresi PaLM’den daha iyi performans gösterdiğini de buldular. ANLI karşılaştırmasıince ayar veri kümesinin yalnızca %80’ine ihtiyaç duyarken.
X’teki (eski adıyla Twitter) çalışmayla ilgili bir tartışmada, AI girişimcisi Otto von Zastrow yazdı:
Bu sonuçlar çok güçlü. Ben buna damıtma değil sentetik veri üretimi derdim ve orijinal LLM’yi örnek soru başına bu sentetik mantık üzerine eğitirseniz ne olacağını gerçekten merak ediyorum.
Adım Adım Damıtma kaynak kodu ve eğitim veri kümesi GitHub’da mevcuttur. Google Cloud’un Vertex AI platform aynı zamanda algoritmanın özel bir önizlemesini de sunuyor.