Samsung yapay zekâ benchmark çözümü TRUEBench'i tanıttı

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM’ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi bir değerlendirme sağlamak için çeşitli diyalog senaryoları ve çok dilli koşullardan faydalanıyor. Samsung’un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, veri analizi yapma, özet çıkarma ve çeviri yapma gibi yaygın kullanılan kurumsal görevleri 10 temel kategori ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik değerlendirmeler yaparak görevlere güvenilir bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.

Samsung Electronics Dijital Deneyimler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz” dedi.

Son zamanlarda şirketler yapay zekâyı daha çok benimsedikçe büyük dil modellerinin üretkenliğini ölçme talebinde artış yaşanıyor. Ancak, çoğunlukla İngilizce odaklı olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek turdan oluşan soru-cevap yöntemleriyle sınırlı bir değerlendirme yapıyor. Bu durum, bu değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sınırlandırıyor. Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve 12 dilde çalışan 2.485 test setinden oluşuyor hem de diller arası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara çözüm sunabileceğini inceliyor. Samsung Research’in geliştirdiği TRUEBench, kolay taleplerden uzun belgeleri özetlemeye kadar çeşitli görevleri inceliyor ve içeriği 8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.

Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan yanıtların doğru olup olmadığını anlamaya imkân veren net kriterlere sahip olmak büyük önem taşıyor. Gerçek yaşam senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, yalnızca yanıtların doğruluğunu değil aynı zamanda kullanıcıların örtük ihtiyaçlarını gözeten ayrıntılı koşulları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.

Gerçek insanlar ile yapay zekâ iş birliğiyle değerlendirme öğelerini doğrulayan Samsung Research çözümünde, ilk olarak, gerçek yorumcular değerlendirme kriterlerini oluşturuyor, ardından yapay zekâ bunları inceleyerek hataları, çelişkileri veya gereksiz kısıtlamaları kontrol ediyor. Daha sonra, gerçek yorumcular kriterleri tekrar daha iyi hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas değerlendirme standartları oluşturuluyor. Söz konusu çapraz doğrulama kriterlerine dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle kişisel önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm koşulların karşılanması gerekiyor. Bu da görevlerin daha ayrıntılı ve hassas puanlanmasını sağlıyor.

TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face’de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir şekilde incelemesine imkân tanıyor. Ayrıca, ortalama yanıt süresi sonuçlarına ilişkin veriler de yayınlanıyor. Böylece, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı