Governar Agents d'IA: Per Què 'Fet' Cal Guanyar-s'ho

L’autonomia sense govern és una bomba de rellotgeria

Dona a un agent un objectiu i eines i farà coses. Dona a deu agents objectius i eines i faran moltes coses — algunes de bones, algunes de catastròfiques, i gairebé totes sense que ningú les hagi mirat. El salt de “un agent que m’ajuda” a “un equip d’agents que produeix feina que arriba a producció” no és un problema de models més espavilats. És un problema de governança.

Governança, aquí, vol dir una cosa molt concreta: qui decideix que la feina està feta, qui la revisa, i què impedeix que un agent es promocioni a si mateix a “completat” sense haver fet res verificable. Si no respons a aquestes preguntes amb codi —no amb prompts—, el que tens no és un sistema autònom, és un generador de confiança injustificada.

Aquest post tracta de la bastida que converteix un grapat d’agents solts en un equip en el qual pots confiar el just: ni més, ni menys.

Un agent no pot ser jutge de la seva pròpia feina

El principi fundacional el prenem manllevat de la seguretat i de l’auditoria: separació de funcions. Qui fa la feina no és qui l’aprova. En un equip humà això és obvi — ningú signa la seva pròpia revisió de codi. En un sistema d’agents és igual d’obvi i, tanmateix, és el primer que es salta quan munts una demo.

La raó per la qual importa més amb agents que amb humans: un LLM al·lucina la finalització. No per malícia, sinó per la mateixa mecànica que el fa inventar una citació o una funció que no existeix. Un agent et dirà “he completat la tasca i tot funciona” amb la mateixa fluïdesa tant si és veritat com si no ha tocat cap línia. Si aquell agent també té l’autoritat de marcar la tasca com a feta, acabes de construir una màquina de mentir educadament.

La regla que no es negocia

Cap agent promociona la seva pròpia feina a “fet”. La transició a completat la decideix el sistema, després de comprovar efectes verificables: una revisió independent que ha passat, una integració real que no ha trencat res, un test en verd. “Done” és una conseqüència, mai una afirmació.

El tauler com a màquina d’estats

La manera més neta que conec d’imposar governança és modelar la feina com un tauler Kanban que en realitat és una màquina d’estats. Una tasca viu en un estat i només es pot moure per transicions permeses:

ToDo  ->  InProgress  ->  InReview  ->  Done
                 ^             |
                 +-------------+   (canvis sol·licitats)

La clau no és el tauler bonic, són les transicions prohibides. Done -> InProgress no existeix (una tasca acabada no “torna a començar” en silenci). Si cal reobrir feina, el camí vàlid és explícit: Done -> InReview -> Done, passant altre cop per les portes. Cada moviment es valida contra una taula de transicions permeses; qualsevol intent de salt es rebutja.

Per què tanta cerimònia? Perquè un agent, deixat al seu aire, intentarà la drecera. Demanarà moure alguna cosa directament a Done perquè “ja està”. La màquina d’estats és el que converteix “ja està” en “demostra-ho”.

Revisió independent: les portes

Entre InProgress i Done s’interposen una o més portes de revisió, i la paraula important és independent. El revisor és un altre agent (o, millor, uns quants), amb el seu propi context, que no va participar a fer la feina. A la pràctica, separar la revisió en dimensions diferents funciona molt bé:

Qualitat / correcció — fa el que havia de fer? està ben construït?
Seguretat — introdueix un risc, una fuita, un permís de més?

Les portes són en sèrie: si qualitat rebutja, ni tan sols arribes a seguretat. I cada rebuig retorna la tasca a InProgress amb la raó adjunta, no la mata. La feina itera fins a passar totes les portes o fins que s’esgota la paciència del sistema (d’això, més avall).

El biaix d’ancoratge: per què el revisor no ha de veure els rebuigs previs

Aquí hi ha un detall subtil que descobreixes a base de veure revisions dolentes. Si a l’agent revisor li dones l’historial complet —inclosos els rebuigs anteriors d’altres revisors—, s’ancora. Llegeix “rebutjat per X” i, en lloc de revisar amb ulls frescos, busca confirmar o contradir aquell veredicte. Perds la independència que justificava tenir diverses portes.

Amaga els veredictes previs

Al revisor se li mostra la feina i el context necessari, però no els blocs de “rebutjat per…” de rondes anteriors. Cada revisió ha de ser un judici independent sobre l’estat actual, no una reacció al judici d’un altre. És el mateix principi que en la revisió per parells a doble cec.

Quan el revisor no revisa

Els revisors també fallen, i de maneres predictibles que cal anticipar:

El revisor que no fa res. Retorna un paràgraf elegant però no inspecciona res (zero crides a eines de lectura). No pots tractar això com una aprovació: una revisió sense haver mirat no és una revisió. La política sensata és interpretar-ho com a “canvis sol·licitats” implícit després d’un parell d’intents — un no per defecte, mai un sí per defecte.
El revisor absent. L’agent revisor no està disponible o no respon. La tasca no pot quedar-se penjada esperant ni, encara menys, autoaprovar-se per timeout. S’escala.

El patró comú: davant el dubte, el sistema falla cap al costat segur — bloqueja i escala, mai aprova.

L’escalada: de l’agent a l’humà

L’autonomia ha d’estar acotada. Un equip d’agents que mai demana ajuda és un equip que tard o d’hora fa una bestiesa amb tota la confiança. El disseny correcte és una escalada per nivells:

Un agent s’encalla o dos revisors no es posen d’acord.
Un agent coordinador (un “lead”) intenta mediar de manera autònoma: té més context i pot desempatar.
Si el lead tampoc no resol —o si l’assumpte és irreversible o sensible—, s’escala a un humà.

L’humà sempre té l’última paraula, inclosa l’opció d’un “forçar a fet” explícit quan sap alguna cosa que el sistema no sap. La diferència crucial: aquesta promoció manual és una decisió humana registrada, no una autopromoció de l’agent. L’autoritat per saltar-se les portes existeix, però viu fora del bucle automàtic.

L’invariant

Si destil·les tota la governança a una sola frase comprovable, és aquesta:

Una tasca arriba a “fet” únicament per (a) revisió completa superada més integració real reeixida, o (b) decisió humana explícita. Mai per autopromoció.

Tota la resta —la màquina d’estats, les portes, l’antiancoratge, l’escalada— existeix per protegir aquest invariant. I la prova de foc del teu sistema és intentar violar-lo: pot un agent, per qualsevol camí, arribar a Done sense passar per les portes ni per un humà? Si la resposta és “sí, si diu que ja està”, no tens governança, tens decoració.

Preguntes freqüents

Què és la governança en un sistema d'agents d'IA?

És el conjunt de regles que decideixen qui fa la feina, qui la revisa i què impedeix que un agent es declari a si mateix 'acabat'. S'implementa amb codi —màquines d'estats, portes de revisió, escalada a humans— no amb instruccions al prompt, perquè un agent pot ignorar una instrucció però no pot saltar-se una transició d'estat prohibida.

Per què un agent no hauria d'aprovar la seva pròpia feina?

Perquè els LLM al·lucinen la finalització: afirmen haver completat una tasca amb la mateixa fluïdesa tant si és cert com si no han fet res. Per separació de funcions, qui produeix la feina no pot ser qui l'aprova; l'aprovació la dona un revisor independent i la integració real, no la paraula de l'autor.

Com s'evita que un agent revisor aprovi sense revisar de debò?

Amb dues salvaguardes: amagar-li els veredictes de rondes anteriors perquè jutgi sense ancorar-se, i tractar una revisió sense inspecció real (zero accions de lectura) com a 'canvis sol·licitats' implícit, mai com a aprovació. Davant el dubte, el sistema bloqueja i escala.

Quan ha d'intervenir un humà en un equip d'agents?

Quan un agent s'encalla, quan els revisors no es posen d'acord i un agent coordinador no aconsegueix desempatar, o quan l'acció és irreversible o sensible. L'humà pot forçar una decisió, però aquesta promoció manual queda registrada com a decisió humana explícita, no com a autopromoció de l'agent.

Conclusió

La intel·ligència d’un agent i la fiabilitat d’un sistema d’agents són dues coses diferents. La primera ve del model; la segona la poses tu, amb governança. Separació de funcions, una màquina d’estats que prohibeix les dreceres, portes de revisió independents i blindades contra l’ancoratge, i una escalada que acaba en un humà quan cal.

Sona a burocràcia, i ho és — la bona mena de burocràcia, la que existeix perquè algú va aprendre per les males que sense ella el sistema menteix. “Fet” cal guanyar-s’ho. La teva feina és construir el camp on s’ho guanya.