Sujet : Chat GTP (et Claude) sont-ils capables de nous manipuler ?
De : none (at) *nospam* no.invalid (Thomas Alexandre)
Groupes : fr.sci.zetetiqueDate : 27. Jan 2025, 18:14:36
Autres entêtes
Organisation : 🍿🍺
Message-ID : <6797befc$0$16824$426a74cc@news.free.fr>
User-Agent : Pan/0.161 (Chasiv Yar; )
En bref : [OUI]
Je vous signale cette vidéo de Monsieur Phi¹ qui se penche sérieusement sur
cette question à partir de deux études sur les LLM² qui les amènent à faire
le contraire de ce qui leur est demandé.
Autrement dit les LLM peuvent être amenés à trahir leurs objectifs et nous
manipuler (et qui n'apparaît même pas forcément dans la "chain of
thoughts").
À noter que les études mentionnées procèdent pas mal par injection de
prompt³. Mais pas que, du sandbagging⁴ aussi. N'empêche que l'impact est
assez déroutant.
1:
https://www.youtube.com/watch?v=cw9wcNKDOtQ2:
https://www.apolloresearch.ai/research/scheming-reasoning-evaluationset
https://www.anthropic.com/research/alignment-faking3 :
https://en.wikipedia.org/wiki/Prompt_injection4 :
https://tomdug.github.io/ai-sandbagging/J'aurais bien fait un xpost avec fr.comp.ia avec fu2 fsz mais l'autre
débile (dont je ne doute pas qu'il ne pourra pas s'empêcher de réagir) ne
respecte strictement rien.
-- "Ce qu'il faut au fond pour obtenir une espèce de paix avec les hommes,(...) c'est leur permettre en toutes circonstances, de s'étaler, de sevautrer parmi les vantardises niaises. Il n'y a pas de vanitéintelligente. C'est un instinct." - Céline