Rewolucja przełożona. Nowy benchmark „Workplace AI” obnaża słabości agentów autonomicznych

mamstartup.pl 6 miesięcy temu

Nowy benchmark, zaprojektowany do testowania modeli w złożonych, wieloetapowych scenariuszach zawodowych, wykazuje drastyczny spadek skuteczności przy najmniejszym wzroście komplikacji zadań.

Idź do oryginalnego materiału