Cumartesi, Ekim 5, 2024
Ana SayfaNesnelerin İnternetiYapay Zekaİşitilen Sesleri Netleştiren Yapay Zeka

İşitilen Sesleri Netleştiren Yapay Zeka

Princeton Üniversitesi’ndeki araştırmacılar tarafından geliştirilen yeni bir yöntem, geleceğimizdeki dinleme deneyimini iyileştirebilir. Derin öğrenme olarak bilinen yapay zeka (AI) yaklaşımını kullanan bu teknik, düşük kaliteli insan konuşma kayıtlarını dönüştürerek seslerin netliğini arttırabilir. Ses kayıtlarında arkada oluşan gürültüler yok edilebilir ve bu ses kayıtları sanki stüdyolarda kaydedilmiş gibi bir hale getirilebilir.

Konuşma kayıtlarını iyileştirmeye yönelik diğer yapay zeka tabanlı yöntemler, genellikle arka plan gürültüsünü yok etmek veya yankıyı kaldırmak gibi ses kalitesinin tek bir yönünü ele alırken, bu yöntem daha çok hepsini birlikte düzeltmeye yarayan bir araç. Araştırmacılar çerçevelerini tam otomatik, gerçek zamanlı konuşma iyileştirmeyi sağlamak için uygulayabilmeyi umuyorlar.

Bilgisayar bilimlerinde yüksek lisans öğrencisi ve araştırmacıların HiFi-GAN adını verdiği yöntemi açıklayan ve makalenin baş yazarı olan Jiaqi Su eski yaklaşımların daha çok sesin anlaşılabilirliğine odaklandığını söyledi. bu durum her ne kadar sesi anlaşılabilir kılsa da dinlenebilirlik ve kulağa hoş gelme açısından istenen oranda bir başarı sağlayamıyor.

Hifi-GAN derin öğrenme modellerinin yapı taşı olan yapay sinir ağlarını kullanıyor. Bu sistemde, ses kalitesini iyileştirmek için iki ayrı ağ rekabet eder. Jeneratör adı verilen bir ağ, temizlenmiş konuşma kayıtları üretir. Ayırıcı olarak adlandırılan diğer ağ, gerçek stüdyo kalitesinde kayıtlar mı yoksa jeneratör tarafından temizlenmiş ses mi olduğunu belirlemeye çalışmak için kayıtları analiz eder. Bu üretici rakip ağlar (GAN’lar) arasındaki rekabet, yöntemin net ses üretme yeteneğini geliştirir.

Araştırmacılar, HiFi-GAN tarafından üretilen kayıtları değerlendirmek için, araştırmacılar ses kalitesinin birkaç objektif ölçümünü kullandılar. Ayrıca, HiFi-GAN’ın sonuçlarını ve diğer ses kalitesi iyileştirme algoritmalarının sonuçlarını değerlendiren insan dinleyicilerden öznel yargıları toplamak için kitle kaynak platformu Amazon Mechanical Turk’e başvurdular. Amazon Mechanical Turk üzerindeki 28.000 dinleyici derecelendirmesinde, HiFi-GAN, ses kalitesini iyileştirmek için diğer beş yöntemden daha yüksek puan aldı.

HiFi-GAN çeşitli ses işleme uygulamaları için kullanılabilecek genel yaklaşımlar sunar. Araştırmacılar şimdi yöntemlerini, bir Zoom sohbeti veya web semineri sırasında potansiyel olarak kullanılabilecek gerçek zamanlı konuşmaları geliştirmeye uyarlıyorlar.

Merve Eyüboğlu
Merve Eyüboğlu
İstanbul Teknik Üniversitesi Elektronik ve Haberleşme Mühendisliği | IEEE İTÜ ComSoc Tanıtım ve Tasarım Koordinatörü
RELATED ARTICLES

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Bizi Takip Edin

4,200BeğenenlerBeğen
10,000TakipçilerTakip Et
296TakipçilerTakip Et
1,400AboneAbone Ol

BÜLTENİMİZE ABONE OLUN

Popüler