Yapay zeka modellerinin eğitimi için kullanılan veriler tartışma yaratıyor. CAPTCHA testleri, oyunlar ve navigasyon verileri dahil internetteki her hareket dijital iz bırakıyor.
Büyük dil modelleri (LLM) ChatGPT, Gemini ve Claude gibi yapay zeka araçları günde milyonlarca kullanıcı tarafından kullanılıyor. Bu modellerin eğitimi, kitaplar, internet siteleri ve makaleler gibi çeşitli yazılı materyallerden elde edilen metinlerle gerçekleştiriliyor. Eğitim materyali kamuya açık kaynaklardan toplansa da, son dönemdeki tartışmalar internet kullanıcılarının çevrimiçi hareketlerinden derlenen verilere odaklanıyor.
İnternet hizmetlerine erişimden önce kullanıcıların insan olduğunu teyit eden CAPTCHA ve reCAPTCHA testleri, teknoloji firmaları için güvenlik önlemlerinin ötesinde bir anlam taşıyor. Kullanıcılardan harfleri yazması veya belirli nesneleri tanıması istenen bu testlerin, yapay zeka araçlarının eğitiminde kullanıldığı öne sürülüyor. Özellikle Google’ın testlerinde yer alan yaya geçitleri, trafik lambaları gibi görsellerin, insansız araçlar için veri sağladığı iddiaları gündemde.
Bir Google Cloud sözcüsü, reCAPTCHA verilerinin yalnızca hizmeti iyileştirme amacıyla kullanıldığını ve hizmet şartlarında bunun açıkça belirtildiğini ifade etti. Bu durum, kullanıcıların farkında olmadan yapay zeka eğitimine katkı sağladığına dair endişeleri artırıyor.
Niantic firmasının popüler oyunu Pokemon Go da benzer tartışmaların odağında. Oyuncuların GPS ve kamera aracılığıyla gerçek dünyada karakterleri aradığı bu oyun, sokak görüntülerinden oluşan büyük bir veri havuzu oluşturdu. MIT Technology Review’a göre Niantic, bu 30 milyar görseli kullanarak gerçek dünyanın sanal bir modelini üretti.
Niantic, bu modellemeyle GPS’in güvenilir olmadığı yerlerde robotların hareketini kolaylaştırmayı hedefliyor. Firma, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanıldığını doğruladı ancak bu özelliğin tamamen opsiyonel olduğunu vurguladı.
Lozan Üniversitesi’nden Profesör Christian Peukert, yapay zeka eğitiminde kullanılan materyaller ile kullanıcı güvenliği arasındaki dengeyi değerlendirdi. Peukert, eski CAPTCHA versiyonlarında kullanıcıların deşifre ettiği bilinmeyen kelimelerin, metin tanıma sistemlerinin iyileştirilmesi için veri olarak depolandığını belirtti.
Peukert, yapay zeka eğitiminin büyük kısmının, kullanıcıların internette fark etmeden ürettiği pasif verilere dayandığını vurguladı. Reddit, Twitter, Instagram gibi platformlardaki metinler, görseller ve etiketler; Google aramaları; Google Haritalar ve Waze gibi navigasyon uygulamalarındaki hareket verileri; sohbet robotları ve sesli asistanlarla yapılan görüşmeler de yapay zeka modellerini eğitmek için kullanılıyor.
Bu veri birikiminin
Türkiye ve dünya gündemine dair en güncel haberler, ekonomi dünyasındaki son gelişmeler, spor camiasından sıcak haberler ve teknoloji dünyasındaki yenilikler Gündem Zamanı ile parmağınızın ucunda. Tarafsız yayıncılık ilkesiyle, son dakika haberleri ve derinlemesine analizleri anlık olarak sizlere ulaştırıyoruz.
Yorum Yap