tr-language-model/README.md

45 lines
3.4 KiB
Markdown
Raw Permalink Normal View History

2023-06-07 10:34:09 +03:00
# tr-language-model
2023-06-07 11:32:02 +03:00
Türkçe Dil Modeli Dökümantasyon ve Proje Yönetimi
## Neden?
Piyasada Türkçe TTS ve STT uygulamaları bulunmamakta, olanlar da verimli çalışmamaktadır. Dolayısı ile TTS ve STT uygulamaların kullanılabilirliğini arttırmak ve farklı uygulamalara da dahil etmek için ilk önce doğruluk oranı yüksek bir Türkçe dil modeli oluşturulması gerektiği kanısı içerisindeyiz.
## Faydalı linkler
- https://github.com/coqui-ai/STT-models/releases/tag/turkish%2Fitml%2Fv0.1.0
- https://github.com/petewarden/spchcat
- https://github.com/mozilla/DeepSpeech
- https://github.com/mozilla/DeepSpeech/wiki/Meeting-Notes#agenda-3032020
2023-06-07 15:44:44 +03:00
- https://github.com/openai/whisper
2023-06-07 11:32:02 +03:00
### Mümkün Olan Uygulama Alanları
- TTS
- Erişilebilirlik için telefon ekran okuma özelliği
- Erişilebilirlik için bilgisayar ekran okuma özelliği
- Çeviri uygulamaları için daha yüksek doğrulukta telaffuz
-
- STT
- LibreOffice Sesli Yazma
- Telefon için sesle arama yapma
<!--
Where this idea came from: https://discord.com/channels/941091332389232741/1113596011248615536/1113739966544101387
My thoughts:
- LibreOffice sesle yazma özelliğini desteklemiyormuş. Bence desteklemesi çok mantıklı olmazdı da zaten. Çünkü amacı sesi yazıya dönüştürmek değil doküman hazırlamak. Bir de speech-to-text (STT) yani sesi yazıya dönüştüren bir komponent LibreOfis'in boyutunu hayli arttırıp gereksiz yer kaplayan bir uygulamaya dönüştürürdü.
- Kısacası bunun için ayrı bir komponent olması gayet mantıklı. Zaten düşününce LibreOffice içinde veya harici bir STT bileşini olması hiçbir şey değiştirmez. STT'nin yapacağı tek şey imlecin en son olduğu yere bileşen başlatıldığı zaman ses girdisini işleyip yazıya dönüştürmesi.
- Bu nedenle Linux için halihazırda böyle bir uygulama var mı diye araştırmak daha mantıklı olur bence. Halihazırda olan Türkçe modellerin bir STT uygulamasına dönüştürülmesi veya özel bir model oluşturma vb. çalışmalar yapılabilir
- Elbette açık kaynak kodlu olmalı 🤩 Hâlihazırda zaten proprietary olarak kullandığımız yazılımlar ne yazık ki mevcut (Google'dan arama yaparken ses kullanmak gibi). Ama bu programlar hem kapalı kapılar ardında çalışıyor hem de arkada verilerimizi işleyip işlemediklerini bilmiyoruz (daha doğrusu hangi alanlarda işlediklerini bilmiyoruz). Ayrıyeten kodun proprietary olması diğer uygulama ve kullanım senaryoları için uyumlu hâle getirmeyi zorlaştırıyor.
- Bu yüzden öncelikle Türkçe için bir dil modeli oluşturup -hâlihazırda var olan modellerin incelenmesi ve geliştirilmesi neticesi ile de olabilir- kullanıcı geri bildirimleri veya kullanılan farklı methodlar ile doğruluk oranlarını arttırmaya ve daha erişilebilir bir sonuca ulaşmaya çalışmalıyız. Ayrıca kullanım senaryoları için farklı alt modeller çıkarmalıyız. Telefon için lightweight bir tane mesela.
- Sonrasında bunların doğruluk oranlarını karşılaştırıp uygulamalara entegre etmeye başlayabiliriz. Terminal üzerinden çalışacak bir dikte uygulaması, Telefon uygulaması, Raspberry Pi üzerinde çalışabilecek bir uygulama (günlük hayatta farklı mekanizmalarda kullanılıp sesli kontrol ile erişilebilirliği arttırabiliriz mesela), veya bunların tersi STT yerine TTS kullanarak yazıyı sese dönüştürme üzerine yapılabilecek uygulamalar . . .
-->