Samsung wprowadza TRUEBench do testowania wydajności AI w rzeczywistych scenariuszach pracy

notebookcheck.pl 2 miesięcy temu

Samsung uruchomił TRUEBench, nowy benchmark zaprojektowany w celu zmierzenia, jak dobrze systemy sztucznej inteligencji radzą sobie z rzeczywistymi zadaniami w miejscu pracy, a nie z wąskimi testami akademickimi. Obejmujący 2485 scenariuszy w dziesięciu kategoriach i dwunastu językach, ocenia wszystko, od szybkich podpowiedzi po długie przetwarzanie dokumentów. Punktacja jest surowa, wymagając od modeli spełnienia każdego warunku, co sprawia, iż wyniki są wymagające, ale bardziej realistyczne.

Idź do oryginalnego materiału