Yapay Zeka (AI)

NVIDIA’dan gerçekçi deneyimiyle öne çıkan çift yönlü konuşma modeli: PersonaPlex

NVIDIA, geçtiğimiz haftalarda tanıttığı PersonaPlex adlı yeni çift yönlü konuşma modeliyle konuşma yapay zekası alanında önemli bir adım attı. Açık sinir ağı yaklaşımıyla geliştirilen PersonaPlex, insan benzeri diyaloglar kurabilmesi sayesinde kısa sürede dikkat çekmeyi başardı. Model; dijital asistan, eğitmen veya müşteri temsilcisi gibi farklı rollerde görev alabilecek şekilde tasarlanmış durumda. Mevcut sürümde, sunum tarzı ve konuşma stili birbirinden farklı 16 hazır ses profili bulunuyor.

NVIDIA’nın paylaştığı bilgilere göre klasik konuşma sistemleri, ses ve rol özelleştirmesi sunsa bile; konuşma akışında yaşanan yapay duraksamalar, kesintiler ve mekanik konuşma sıraları nedeniyle doğal bir deneyim sağlayamıyor. Öte yandan Moshi gibi tam çift yönlü modeller, eş zamanlı dinleme ve konuşma yetenekleriyle daha akıcı diyaloglar sunsa da kullanıcıyı tek bir ses ve kişilikle sınırlayarak esnekliği azaltıyor.

PersonaPlex ise bu iki yaklaşımı birleştirerek önemli bir fark yaratıyor. Kullanıcılar farklı ses profilleri arasından seçim yapabiliyor ve metin komutlarıyla modele istedikleri rolü tanımlayabiliyor. Sistem, belirlenen kişiliği konuşma boyunca tutarlı bir şekilde korurken; doğal kesintiler, duraksamalar ve konuşma ritmini de başarılı biçimde yönetiyor.

Bu sayede hem yüksek düzeyde kişiselleştirme sağlanıyor hem de konuşmalar insanla yapılıyormuş hissi verecek kadar akıcı ilerliyor. PersonaPlex’in en dikkat çekici yönlerinden biri de aynı anda dinleyip konuşabilmesi. Model, ne zaman ara vereceğini, ne zaman söze gireceğini ve kesintileri nasıl yöneteceğini öğrenebiliyor.

NVIDIA, düşük gecikmeli bir deneyim sunmak için geleneksel basamaklı sistemlerden farklı bir yaklaşım benimsiyor. Klasik yapıda; dinleme (ASR), dil üretimi (LLM) ve konuşma (TTS) için ayrı modeller kullanılırken, PersonaPlex’te kullanıcı konuşurken iç durumu güncellenen ve yanıtı anında üreten tek bir birleşik model tercih ediliyor. Konuşma davranışları ise hem sesli komutlar hem de metin girdileriyle tanımlanıyor ve bu veriler birlikte işlenerek tutarlı bir kişilik oluşturuluyor.

PersonaPlex’in altyapısı, Kyutai tarafından geliştirilen 7 milyar parametreli Moshi mimarisi üzerine inşa edilmiş durumda. NVIDIA’nın aktardığına göre model; soru-cevap sistemleri ve müşteri hizmetleri senaryolarında, konuşma akışı, yanıt süreleri, kesinti yönetimi ve görev odaklılık açısından hem açık kaynaklı hem de ticari alternatiflere kıyasla daha yüksek performans sergiliyor.

Modelin kodları ve ağırlıkları MIT Lisansı ve NVIDIA Açık Model Lisansı kapsamında yayımlanırken, temel Moshi modeli ise Kyutai tarafından CC-BY-4.0 lisansı ile sunuluyor.

Başa dön tuşu