I test di valutazione tradizionali dell’Intelligenza Artificiale, pur essendo utili per misurare capacità circoscritte su compiti statici, falliscono sistematicamente nel prevedere la traiettoria comportamentale di agenti autonomi operanti su orizzonti temporali estesi. Per un Senior Strategist, un benchmark che dura pochi minuti è irrilevante di fronte alla complessità di sistemi destinati a gestire infrastrutture critiche per settimane o mesi. L’esperimento Emergence World, condotto da Emergence AI, rappresenta un cambio di paradigma: non più un esame di singole competenze, ma uno studio sulla “deriva dei sistemi” in condizioni di operatività continua.
