Sujet : [Rappel] Re: Chat GTP (et Claude) sont-ils capables de nous manipuler ?
De : jsuis (at) *nospam* jreste.invalid (Duzz')
Groupes : fr.comp.iaDate : 29. Jan 2025, 23:33:54
Autres entêtes
Organisation : Nemoweb
Message-ID : <qMbuFTYMj_FHDFIVkfjRWGeyl-A@jntp>
References : 1
User-Agent : Nemo/1.0
Le 27/01/2025 à 18:14, Thomas Alexandre a écrit :
En bref : [OUI]
Je vous signale cette vidéo de Monsieur Phi¹ qui se penche sérieusement sur cette question à partir de deux études sur les LLM² qui les amènent à faire le contraire de ce qui leur est demandé.
Autrement dit les LLM peuvent être amenés à trahir leurs objectifs et nous manipuler (et qui n'apparaît même pas forcément dans la "chain of thoughts").
À noter que les études mentionnées procèdent pas mal par injection de prompt³. Mais pas que, du sandbagging⁴ aussi. N'empêche que l'impact est assez déroutant.
1: https://www.youtube.com/watch?v=cw9wcNKDOtQ
2: https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
et https://www.anthropic.com/research/alignment-faking
3 : https://en.wikipedia.org/wiki/Prompt_injection
4 : https://tomdug.github.io/ai-sandbagging/
J'aurais bien fait un xpost avec fr.comp.ia avec fu2 fsz mais l'autre débile (dont je ne doute pas qu'il ne pourra pas s'empêcher de réagir) ne respecte strictement rien.
La qualité de cette documentation mérite une publication sur fr.comp.ia.
J'espère que cette réponse sans Xpost échappera au débile.