Devlet arşivleri, kütüphaneler ve özel koleksiyonlar, kitaplar, dergiler, gazeteler, defterler, plaklar ve Osmanlı Türkçesiyle yazılmış diğer materyaller de dahil olmak üzere Osmanlı dönemine ait milyonlarca belgeyi barındırıyor ve ortaya çıkarılmayı bekleyen asırlık bir tarihi miras bırakıyor.
Osmanlı Türkçesini sıfırdan öğrenmeye ciddi bir zaman harcamak yerine, artık bu ihtiyacı giderecek “Yapay Zeka Destekli Osmanlıca-Türkçe Uçtan Uca Çeviri” adıyla yeni bir girişim ortaya çıktı.
İstanbul Üniversitesi-Cerrahpaşa Bilgisayar Mühendisliği Bölümü'nden Doç. Dr. Atakan Kurt danışmanlığında Dr. İshak Dolek'in doktora tezi projesi olarak başlattığı girişim olan Osmanlıca.com, Osmanlı Optik Karakter Tanıma (OCR) sürecinde yüzde 96 başarı elde etti, Osmanlıca kaynakların Günümüz Türkçesine aktarılmasının ilk adımı sayılabilir.
Atakan Kurt, TRT World'e yaptığı açıklamada, “Osmanlı dönemine ait yaklaşık yüz milyon sayfalık geniş bir arşive sahibiz. Ancak asıl zorluk, insanların bu arşivleri, dillerinin modern Türkçeden farklı olması nedeniyle okuyup anlayamamasıdır” dedi.
“Bu, halkımızın karşı karşıya olduğu en önemli zorluklardan biri” diyor.
Dil devrimi
Osmanlı Türkçesi, 13. ve 20. yüzyıllar arasında Arap alfabesinin Türkçe formu kullanılarak yazılan, içinde çok sayıda Arapça ve Farsça ifade bulunan bir dildi.
1928 yılında, yani Türkiye Cumhuriyeti'nin kuruluşundan beş yıl sonra ülkede bir dil devrimi yaşandı. Arap alfabesini kullanmaktan hızla, bugün hala kullanımda olan Latin alfabesiyle yazılan Türkçenin ilk versiyonunu benimsemeye geçti. Ayrıca bu dönemde yabancı unsurların dilden önemli ölçüde uzaklaştırılması söz konusudur.
Kurt, Avrupa Birliği'nin Orta Çağ'dan bu yana yazılan tarihi el yazmaları için yaptığının, bu bilgisayar programlarını kullanarak bunları düzenlenebilir metne çevirmek olduğunu söylüyor.
“Çünkü Avrupa'da Orta Çağ dilleri ile günümüz dilleri arasında çok büyük bir fark yok, sadece bu basılı ve el yazması metinleri (eski gazeteler, kitaplar, mektuplar, el yazmaları) resim dosyalarından düzenlenebilir metinlere dönüştürüp paylaşıyorlar. ,” not etti.
Üç aşamalı çözüm
Kurt, Osmanlı Türkçesi söz konusu olduğunda iki sorunla daha karşılaştıklarını söylüyor.
“Öncelikle metinlerimizdeki alfabe bugün kullandığımızdan farklı. İkincisi, dil de farklıdır. Mektupları tercüme etsek bile insanlar yaklaşık bir iki asır önce kullanılan dili anlamıyorlar. Elli yıl önce kullanılan dil bile bugün neredeyse anlaşılmaz hale geldi.”
“Yani o dönemde kullanılan dil artık yabancı dil gibidir. Bu nedenle belgelerin dilini de günümüz Türkçesine çevirmemiz gerekiyor.”
Osmanlıca.com'da Osmanlıca belgeler üç adımda Modern Türkçeye dönüştürülür. Öncelikle Osmanlıca OCR (Optik Karakter Tanıma), yani görselin düzenlenebilir metne dönüştürülmesi; ikincisi, Osmanlı-Türk alfabesinin harf çevirisi; üçüncüsü ise Osmanlı Türkçesinin Modern Türkçeye çevrilmesi.
Bu üç adımın her biri, Doğal Dil İşleme (NLP, yani bir bilgisayarın konuşma ve/veya yazılı dili insana benzer şekilde kullanma ve anlama yeteneği) ve Derin Öğrenme (bilgisayarlara öğreten bir yapay zeka yöntemi) konularında yoğun kaynak gerektiren teknik açıdan karmaşık problemlerdir. Verileri insan beynine benzer şekilde işlemek için).
Bunu başarmak için Atakan Kurt ve ortağı İshak Dolek, Mina Arge adında bir şirket kurarak ilk adım olarak OCR projesini geliştirdiler.
OCR projesinin başarıyla tamamlanmasının ardından şirket, şu anda Küçük ve Orta Ölçekli İşletmeleri Geliştirme ve Destekleme Kurumu KOSGEB ve Türkiye'nin bilimsel ve teknolojik araştırma kurumu TÜBİTAK'ın desteğiyle ikinci aşama olan Osmanlı-Türk alfabesinin harf çevirisini geliştiriyor. .
Disiplinlerarası çalışma
Alfabe çevirisinde halihazırda yüzde 75 doğruluk oranına ulaşan şirket, bu uygulamada yüzde 95 doğruluk oranına ulaşmak için bir grup bilgisayar bilimci, dil ve dilbilimci ve tarihçiyle birlikte araştırma ve geliştirme faaliyetlerini sürdürüyor.
“Bu çalışmaların etkili bir şekilde yürütülebilmesi için birden fazla doktora öğrencisine ihtiyaç vardır; işbirliği yapan iki farklı gruba ihtiyacınız var. Bir grup bilgisayar bilimcilerinden, diğeri ise tarih ve dil uzmanlarından oluşuyor. Bu disiplinler arası bir çalışmadır” diye konuştu.
Projede uzman olarak görev alan tarihçilerden Adile Özgünay, yaklaşık 11 yıldır Osmanlı Türkçesi üzerinde çalıştığını söyledi. “Sahanın ne kadar emek ve zamana ihtiyacı olduğunu yakından gözlemleme şansım oldu. Son iki yıldır çabamızı ve inancımızı bu projeye aktarıyoruz.”
Özgünay, “Osmanlı Arşivi'nde çalışan yüksek lisans ve doktora öğrencileri, akademik çalışmalarının bir parçası olarak çeviri ve harf çevirisi çalışmalarına önemli miktarda zaman harcıyorlar. Bu proje, araştırmacıların zamanlarının çoğunu araştırmalarına ayırmalarına ve çeviriye daha az zaman ayırmalarına olanak tanıyacak”.
“Yüzyılın en anlamlı projesi”
Kurt, “Yurtdışında yüz milyonun üzerinde Osmanlı arşivi bulunduğunu tahmin ediyorum. Hatta Kanada'daki Toronto Üniversitesi gibi kurumların bile Osmanlı Türkçesiyle yazılmış en az bin kitabı var. Ayrıca Balkanlar'da da çok sayıda Osmanlı belgesi bulunuyor. Orta Doğu ve hatta Afrika'daki bazı ülkeler.”
Özgünay, yapay zekanın sosyal bilimlere hızla adapte olmasının akademisyenlere disiplinler arası bir alan genişlemesi sunduğunu da belirtti. Akademisyenlerin haritalama ve ilişki analizi gibi diğer teknolojileri araştırmalarına entegre etmeye başladıklarını ekledi.
Projenin akademisyenlere fayda sağlamanın yanı sıra, Osmanlı Türkçesi okuyamayan ancak tapu, atalarından kalma mektuplar, fotoğraf arkasına yazılan el yazısıyla yazılmış notlar gibi belgeleri okumak isteyen kişilere de yardımcı olacağını belirtti.
Kurt, “Bu projenin tüm aşamalarını tamamladığımızda Türkiye'de sosyal bilimler alanında yüzyılın en önemli projesi olarak öne çıkacağına inanıyorum” dedi.
Yorumlar kapalı.