Neden her lisanda yapay zeka takviyeli çeviri yapılamıyor?

ChatGPT üzere yapay zeka takviyeli araçlar, destekledikleri lisanı biliyorsanız şahane fırsatlar sunuyor.

Ancak Etiyopya’nın başşehri Addis Ababa’da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca lisanında makine çevirisinin imkansız olduğunu söylüyor. DW’ye konuşan Gebrewold, “Google Çeviri üzere araçlar Amharca için âlâ yapılandırılmamış. Bunun yerine profesyonellere para ödüyoruz” diyor.

Mekdes Gebrewold üzere milyarlarca insan, yapay zeka dayanaklı araçlardan anadillerinde yararlanamıyor.

Bu durum sırf ChatGPT üzere üretken yapay zeka dayanaklı araçlar yahut Google Çeviri (Translate) üzere çeviri hizmetlerine mahsus değil. Otomatik tamamlama, metin çözümleme, sesli asistanlar ve toplumsal medyadaki içerik kontrolü üzere birçok yapay zeka takviyeli araç, farklı lisanlarda hizmet verme konusunda yetersiz.

Ancak kimi şirketler bunu değiştirmeye çalışıyor.

Yapay zeka dayanaklı araçlar nasıl çalışıyor?

Aslında çağdaş yapay zeka araçları, aldıkları girdiye nazaran en muhtemel cevabı kestirim ediyor. Gelişmiş otomatik tamamlama araçlarının yaptığı bu varsayımlar, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları “eğitim verilerine” dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim bilgileri çok büyük yer kaplıyor.

Common Crawl, bu eğitim dataları için değerli bir kaynak. Common Crawl, internetteki milyarlarca web sayfasından oluşan bir data kümesi ve açık kaynak olarak erişilebiliyor. Yapay zeka takviyeli ChatGPT- 3.5 sürümünü eğitmek için kullanılan dataların yaklaşık yüzde 60’ı bu koleksiyondan alınmıştı.

Yapay zeka araçları, kimi lisanlardaki eğitim dataları kısıtlı olduğu için farklı lisanlarda birebir performansla çalışmıyor. İnternetteki içerikler ağır olarak birkaç lisanda oluşturulduğu için, birçok lisanda yapay zeka eğitim verisi bulmak bir sorun.

Örneğin İngilizce, Common Crawl’daki tüm içeriklerin neredeyse yarısını oluşturuyor.

Fotoğraf: Valentin Wolf/imageBROKER/picture alliance

Öte yandan öteki tüm Afrika, Amerika ve Okyanusya lisanlarıyla birlikte Amharca, Common Crawl bilgilerinin yüzde 0,1’inden azını oluşturuyor. Amharca çok az dijital data üretilen, düşük kaynaklı bir lisan olarak biliniyor. Dünyada milyarlarca insan düşük kaynaklı lisanları konuşuyor. Çok sayıda kişinin konuştuğu Hintçe, Arapça ve Bengalce üzere lisanlar bile düşük kaynaklı lisan olarak görülüyor.

Avrupa lisanları ise Asya ve Afrika lisanlarının birçoklarına kıyasla eğitim datalarında daha fazla içerik sahibi. Örneğin Flemenkçe, Amharca’ya benzeri formda 20 milyondan fazla kişi tarafından anadil olarak konuşuluyor. Lakin Flemenkçe, Common Crawl data setinde Amharca’ya kıyasla neredeyse 700 kat daha fazla yer alıyor. Flemenkçe, Common Crawl data setinde 300 milyondan fazla kişinin anadili Hintçe’den bile yüzlerce kat daha fazla içeriğe sahip.

Ancak bu data eksikliğini gidermenin yolları var.

Silikon Vadisi’ndeki teknoloji devlerinin dışında, dünyanın her yerindeki makine tahsili araştırmacıları, kendi lisanları için yapay zeka dayanaklı araçlar geliştiriyor.

Yapay zeka takviyeli araçlarda lisan açığı nasıl kapatılır?

Asmelash Teka Hadgu, Etiyopya’daki Amharca ve Tigrinya lisanlarında makine çevirisi ve konuşma teknolojisi sağlayan bir startup olan Lesan’ın kurucu ortağı. Bu lisanlarda çok büyük ölçüde online kaynak bulunmadığından, Hadgu’nun takımı direkt bu lisanları konuşan topluluklarla çalışıyor ve bilgi toplamanın yaratıcı yollarını buluyor.

DW’ye konuşan Hadgu, “Genellikle kendi lisanlarını seven öğrencilerle çalışıyoruz” diyor. Öğrenciler için Hadgu, “Onlara bu türlü bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi lisanımızda içerik toplamak için misyonlar belirledik. Onlara yardımcı oluyoruz ve finansal olarak çalışmalarının karşılığını veriyoruz” sözlerini kullanıyor.

Böylesi bir data toplama süreci çok fazla el emeği gerektiriyor. Katkıda bulunan bireyler, öncelikle emniyetli kitaplar yahut gazeteler üzere yüksek kaliteli bilgi kümelerini belirliyor ve akabinde bunları dijitalleştirerek maksat lisanlara çeviriyorlar. Son olarak bu bireyler, makine tahsili sürecine rehberlik etmek için yepyeni ve çevrilmiş versiyonları cümle cümle sıralıyorlar.

Bu metot, Lesan üzere şirketleri, milyarlarca sayfa İngilizce içeriğe sahip araçlara rakip hale getirmez. Lakin öbür avantajlar sağiayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya’da Google Çeviri’den daha uygun performans gösteriyor.

Asmelash Teka Hadgu, bu durumu “Küçük, dikkatle seçilmiş bilgi kümelerini kullanarak kullanışlı modeller oluşturulabileceğini gösterdik” diye açıklıyor. Hadgu, bu modeller için “Sınırlamalarını ve yeteneklerini anlıyoruz. Bu esnada Microsoft yahut Google çoklukla tüm lisanlar için tek, devasa bir model oluşturuyor, münasebetiyle bu modelin denetlenmesi neredeyse imkansız” diye ekliyor.

Daha fazla lisanın dijital dayanağa muhtaçlığı var

Lesan bu çalışma formülüne sahip tek şirket değil. Misal projeler, dijital ayak izi daha küçük olan lisanlar için bile tüm dünyada muvaffakiyetle uygulanıyor.

Hristiyan bir sivil toplum kuruluşu olan SIL International’ın yürüttüğü global bir lisan veritabanı olan Ethnologue, Amharca’yı “önemli” lisan takviyesine sahip lisanlar ortasında listeliyor. Bu, en azından Amharca’da kimi makine çeviri araçlarının, yazım kontrolünün ve konuşma işlemenin mevcut olduğu manasına geliyor.

Fotoğraf: Issouf Sanogo / AFP

Birçoğunun bir milyonun üzerinde kullanıcısı olan lisanların de ortalarında yer aldığı binlerce lisanda, çok daha az içerik ve daha az dijital araç sunuluyor.

Asmelash Teka Hadgu, yapay zeka konusunda Afrikalı önde gelen isimlerden oluşan bir ağın kesimi. Hadgu, Afrika, Avrupa ve Kuzey Amerika’dan bir küme araştırmacının yer aldığı Dağıtılmış Yapay Zeka Araştırma Enstitüsü’nde (DAIR) araştırma vazifelisi. Birebir vakitte Hadgu, GanaNLP ve Afrikalı halk kolektifi Masakhane üzere kümelerle da sistemli temas halinde.

Hadgu DW’ye “Afrikalı kurucuların bu teknolojileri sahiplenmesine imkan sağlıyoruz” diyor. Hadgu, “Bu araçlar, bu topluluklardan beşerler tarafından üretiliyor ve hizmet veriyor. Yani mali karşılığı da direkt onlara geri dönecek” sözlerini kullanıyor.

Afrika dışında da dünyanın dört bir yanındaki araştırmacılar Jamaika Patois lisanı, Katalanca, Sudan lisanı ve Maori lisanı üzere öteki lisanları yapay zekaya eklemenin yolları üzerine çalışıyor.

ChatGPT’nin OpenAI’si üzere teknoloji devleri modellerini bilinmeyen ve anlaşılmaz tutarken, global yapay zeka kolektifi Hugging Face üzere teşebbüsler bilgilerini ve yapay zeka modellerini özgürce paylaşıyor. Böylelikle, rastgele bir araştırmacının kendi lisanları için tahlil üretmesini kolaylaştırıyorlar.

Asmelash Teka Hadgu, “Yetenek her yerdedir, fırsat yoktur” diyor. Hadgu, “Diyelim ki Gana’daki bir lisan için en yeterli cinste makine çevirisi teknolojisini yaratmak istiyorsanız, bunu tutkuyla isteyen ve bunu güzel yapabilecek bir Ganalı kesinlikle vardır. Buna fırsat sağlamak lazım” diye ekliyor.

Hanna Demissie bu habere Etiyopya’dan katkıda bulundu.

– Bu haber İngilizce’den Türkçe’ye adapte edilmiştir.

DW Türkçe’ye VPN ile nasıl ulaşabilirim?