NVIDIA’dan gerçekçi deneyimiyle öne çıkan çift yönlü konuşma modeli: PersonaPlex

5 gün önce

516 1 dakika okuma süresi

NVIDIA, geçtiğimiz haftalarda tanıttığı PersonaPlex adlı yeni çift yönlü konuşma modeliyle konuşma yapay zekası alanında önemli bir adım attı. Açık sinir ağı yaklaşımıyla geliştirilen PersonaPlex, insan benzeri diyaloglar kurabilmesi sayesinde kısa sürede dikkat çekmeyi başardı. Model; dijital asistan, eğitmen veya müşteri temsilcisi gibi farklı rollerde görev alabilecek şekilde tasarlanmış durumda. Mevcut sürümde, sunum tarzı ve konuşma stili birbirinden farklı 16 hazır ses profili bulunuyor.

NVIDIA’nın paylaştığı bilgilere göre klasik konuşma sistemleri, ses ve rol özelleştirmesi sunsa bile; konuşma akışında yaşanan yapay duraksamalar, kesintiler ve mekanik konuşma sıraları nedeniyle doğal bir deneyim sağlayamıyor. Öte yandan Moshi gibi tam çift yönlü modeller, eş zamanlı dinleme ve konuşma yetenekleriyle daha akıcı diyaloglar sunsa da kullanıcıyı tek bir ses ve kişilikle sınırlayarak esnekliği azaltıyor.

PersonaPlex ise bu iki yaklaşımı birleştirerek önemli bir fark yaratıyor. Kullanıcılar farklı ses profilleri arasından seçim yapabiliyor ve metin komutlarıyla modele istedikleri rolü tanımlayabiliyor. Sistem, belirlenen kişiliği konuşma boyunca tutarlı bir şekilde korurken; doğal kesintiler, duraksamalar ve konuşma ritmini de başarılı biçimde yönetiyor.

Bu sayede hem yüksek düzeyde kişiselleştirme sağlanıyor hem de konuşmalar insanla yapılıyormuş hissi verecek kadar akıcı ilerliyor. PersonaPlex’in en dikkat çekici yönlerinden biri de aynı anda dinleyip konuşabilmesi. Model, ne zaman ara vereceğini, ne zaman söze gireceğini ve kesintileri nasıl yöneteceğini öğrenebiliyor.

NVIDIA, düşük gecikmeli bir deneyim sunmak için geleneksel basamaklı sistemlerden farklı bir yaklaşım benimsiyor. Klasik yapıda; dinleme (ASR), dil üretimi (LLM) ve konuşma (TTS) için ayrı modeller kullanılırken, PersonaPlex’te kullanıcı konuşurken iç durumu güncellenen ve yanıtı anında üreten tek bir birleşik model tercih ediliyor. Konuşma davranışları ise hem sesli komutlar hem de metin girdileriyle tanımlanıyor ve bu veriler birlikte işlenerek tutarlı bir kişilik oluşturuluyor.

PersonaPlex’in altyapısı, Kyutai tarafından geliştirilen 7 milyar parametreli Moshi mimarisi üzerine inşa edilmiş durumda. NVIDIA’nın aktardığına göre model; soru-cevap sistemleri ve müşteri hizmetleri senaryolarında, konuşma akışı, yanıt süreleri, kesinti yönetimi ve görev odaklılık açısından hem açık kaynaklı hem de ticari alternatiflere kıyasla daha yüksek performans sergiliyor.

Modelin kodları ve ağırlıkları MIT Lisansı ve NVIDIA Açık Model Lisansı kapsamında yayımlanırken, temel Moshi modeli ise Kyutai tarafından CC-BY-4.0 lisansı ile sunuluyor.

5 gün önce

516 1 dakika okuma süresi

NVIDIA’dan gerçekçi deneyimiyle öne çıkan çift yönlü konuşma modeli: PersonaPlex

Instagram’dan En İyi İçerik Üreticilerine Altın Yüzük Ödülü

Instagram, Aylık 3 Milyar Kullanıcıyı Aştı

Instagram, Reels Videoları İçin PiP Özelliğini Test Ediyor

Spotify, 2025’in İkinci Çeyreğinde Gelirini ve Abone Sayısını Artırdı

Portuma Connect ile Alışverişlio Arasında Stratejik İş Birliği

Kedi Sahipliğine Eğlenceli Bir Başlangıç: WHISKAS®’tan Yeni Podcast “Miyavcast”

Portuma CEO’su Ozan Emrah Ünal DEİK – Foreign Economic Relations Board Dijital Teknolojiler İş Konseyi Oyun Komitesi Üyesi Oldu!

Algida, 35. Yılını İkonik Kırmızı-Beyaz Şemsiyeleriyle Kutluyor