Samsung uruchomił TRUEBench, nowy benchmark zaprojektowany w celu zmierzenia, jak dobrze systemy sztucznej inteligencji radzą sobie z rzeczywistymi zadaniami w miejscu pracy, a nie z wąskimi testami akademickimi. Obejmujący 2485 scenariuszy w dziesięciu kategoriach i dwunastu językach, ocenia wszystko, od szybkich podpowiedzi po długie przetwarzanie dokumentów. Punktacja jest surowa, wymagając od modeli spełnienia każdego warunku, co sprawia, iż wyniki są wymagające, ale bardziej realistyczne.