İlk Türkçe büyük dil modeli: Kumru LLM tanıtıldı

VNGRS, gelen taleplere göre farklı sektörlere özel modeller de eğitmeyi planlıyor. Kumru LLM, sıfırdan eğitilmiş, hafif ve kurum içi konuşlandırılabilir bir yapay zeka olarak tanımlanıyor. Bu arada model, her ne kadar Türkçe için eğitilmiş olsa da İngilizceyi ve kodlamayı da biliyor.

Tüketici sınıfı GPU’larda çalışabiliyor

Kumru’nun mimarisinin ise açık kaynak Mistral-v0.3 tabanlı olduğu belirtiliyor. Model mimarisine ek olarak toplu iş boyutu, optimize edici ve öğrenme hızı ile ilgili çeşitli tasarım kararları LLaMA-3 teknik belgesine dayanılıyor. Model, 8.192 tokenlik bağlam uzunluğuna sahip, bu da yaklaşık 20 A4 sayfasına denk gelen bir metni tek seferde işleyebileceği anlamına geliyor.

Kumru’nun açık kaynaklı daha küçük bir versiyonu da mevcut. Kumru-2B, aynı mimariyi 2 milyar parametreyle sunuyor ve yalnızca 4.8 GB bellekle çalışabiliyor. Bu sürüm, mobil cihazlarda dahi kullanılabiliyor ve Hugging Face üzerinden erişime açılmış durumda.

Kumru’nun tokenizasyon sistemi de özel olarak Türkçe için tasarlandı. Yeni RegEx tabanlı ön işlemci sayesinde satır sonları, noktalama işaretleri ve sayılar ayrı token’lar olarak işleniyor. Bu sayede model, metinleri yüzde 38 ila yüzde 98 daha az token kullanarak temsil edebiliyor. Böylece daha uzun metinleri daha hızlı ve düşük maliyetle işleyebiliyor.

Kumru’nun herkese açık demo sürümü, kumru.ai adresi üzerinden erişime açılmış durumda.

İlk Türkçe büyük dil modeli: Kumru LLM tanıtıldı

Bir yanıt yazın Yanıtı iptal et

Kategoriler

Son Yazılar