Newsportal USENET - Chat GTP (et Claude) sont-ils capables de nous manipuler ?

Sujet : Chat GTP (et Claude) sont-ils capables de nous manipuler ?
De : none (at) *nospam* no.invalid (Thomas Alexandre)
Groupes : fr.sci.zetetique
Date : 27. Jan 2025, 18:14:36

Autres entêtes

Organisation : 🍿🍺
Message-ID : <6797befc$0$16824$426a74cc@news.free.fr>
User-Agent : Pan/0.161 (Chasiv Yar; )

En bref : [OUI]

Je vous signale cette vidéo de Monsieur Phi¹ qui se penche sérieusement sur
cette question à partir de deux études sur les LLM² qui les amènent à faire
le contraire de ce qui leur est demandé.

Autrement dit les LLM peuvent être amenés à trahir leurs objectifs et nous
manipuler (et qui n'apparaît même pas forcément dans la "chain of
thoughts").

À noter que les études mentionnées procèdent pas mal par injection de
prompt³. Mais pas que, du sandbagging⁴ aussi. N'empêche que l'impact est
assez déroutant.

1: https://www.youtube.com/watch?v=cw9wcNKDOtQ
2: https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
et https://www.anthropic.com/research/alignment-faking
3 : https://en.wikipedia.org/wiki/Prompt_injection
4 : https://tomdug.github.io/ai-sandbagging/

J'aurais bien fait un xpost avec fr.comp.ia avec fu2 fsz mais l'autre
débile (dont je ne doute pas qu'il ne pourra pas s'empêcher de réagir) ne
respecte strictement rien.

--
"Ce qu'il faut au fond pour obtenir une espèce de paix avec les hommes,
(...) c'est leur permettre en toutes circonstances, de s'étaler, de se
vautrer parmi les vantardises niaises. Il n'y a pas de vanité
intelligente. C'est un instinct." - Céline

Date	Sujet	#		Auteur
3 Jun 25	…