- Konu Yazar
- #1
Samsung, yapay zekâların gerçek iş ortamlarında nasıl performans gösterdiğini ortaya koymak için TRUEBench adını verdiği yeni test aracını duyurdu. Yeni test aracı büyük dil modellerinin verimliliğini ölçmeye odaklanıyor.
TRUEBench, Samsung Research tarafından iş dünyasında sıkça karşılaşılan içerik üretimi, veri analizi, özetleme ve çeviri gibi görevlerde yapay zekâların performansını test etmek için geliştirildi.
Toplam 10 kategori ve 46 alt kategoriyi kapsayan TRUEBench, insan ve yapay zekânın birlikte belirlediği kriterlere göre otomatik testler yapıyor. Hem insanlar hem de yapay zekâ tarafından belirlenen ölçütlerle yapılan bu testler, sonuçların daha net ve tutarlı çıkmasına da yardımcı oluyor.
TRUEBench’in öne çıkan özelliklerinden biri çok dilli senaryoları desteklemesi. Toplamda 12 dilde ve 2.485 test seti üzerinden yapılan ölçümler, kısa komutlardan uzun metin özetlemelerine kadar farklı görevleri kapsıyor. Testler yalnızca verilen cevabın doğruluğunu değil aynı zamanda kullanıcıların dolaylı olarak ifade ettiği ihtiyaçların karşılanıp karşılanmadığını da dikkate alıyor.
TRUEBench, diğer testlerin yetersiz kaldığı yerleri kapatmak için geliştirildi. Hugging Face’te yayımlanan araç kullanıcıların aynı anda beş modeli karşılaştırmasına izin veriyor. Aynı zamanda verilen yanıtların ortalama uzunlukları da görülebiliyor. Bu sayede performans ve verimlilik birlikte ölçülebiliyor.
TRUEBench, Samsung Research tarafından iş dünyasında sıkça karşılaşılan içerik üretimi, veri analizi, özetleme ve çeviri gibi görevlerde yapay zekâların performansını test etmek için geliştirildi.
Hugging Face üzerinden beş farklı model aynı anda karşılaştırılabiliyor

Toplam 10 kategori ve 46 alt kategoriyi kapsayan TRUEBench, insan ve yapay zekânın birlikte belirlediği kriterlere göre otomatik testler yapıyor. Hem insanlar hem de yapay zekâ tarafından belirlenen ölçütlerle yapılan bu testler, sonuçların daha net ve tutarlı çıkmasına da yardımcı oluyor.
TRUEBench’in öne çıkan özelliklerinden biri çok dilli senaryoları desteklemesi. Toplamda 12 dilde ve 2.485 test seti üzerinden yapılan ölçümler, kısa komutlardan uzun metin özetlemelerine kadar farklı görevleri kapsıyor. Testler yalnızca verilen cevabın doğruluğunu değil aynı zamanda kullanıcıların dolaylı olarak ifade ettiği ihtiyaçların karşılanıp karşılanmadığını da dikkate alıyor.
TRUEBench, diğer testlerin yetersiz kaldığı yerleri kapatmak için geliştirildi. Hugging Face’te yayımlanan araç kullanıcıların aynı anda beş modeli karşılaştırmasına izin veriyor. Aynı zamanda verilen yanıtların ortalama uzunlukları da görülebiliyor. Bu sayede performans ve verimlilik birlikte ölçülebiliyor.
Ziyaretçiler için gizlenmiş link,görmek için
Giriş yap veya üye ol.