Notre groupe de lecture

Le PIAF propose un groupe de lecture hebdomadaire sur la sûreté de l’IA.

Principe

Lors d’une séance, un chercheur, un doctorant ou un étudiant présente un exposé sur un article de recherche de son choix. Cette réunion permet à chacun d’apprendre plus sur la sûreté de l’IA et de se renseigner sur les avancées dans le domaine. L’exposé est accessible aux non-experts et est accompagné d’un temps de questions.

Organisation

Les séances du groupe de lecture sont ouvertes à tous et ont lieu en présentiel, généralement le jeudi à 18h, à Polytechnique. Pour vous tenir au courant des prochains rendez-vous, rejoignez notre serveur Discord (ci-dessous).

Si le rendez-vous est à Polytechnique : veuillez rejoindre ce point de repère puis nous suivre.

Voir aussi

Nous proposerons également un événement en semaine : le Jeud’IA.

Rejoindre la discussion

Les exposés à venir

23/10/2025

Scaling Trustworthiness in the Era of Large Language Models

Towards LLM-scale methods for Privacy Auditing, Memorization Localization, and Uncertainty Quantification

Présenté par : Jérémie Dentan (https://dentanjeremie.github.io)

Nos exposés passés

08/10/2025

Les modèles de raisonnement ne disent pas toujours ce qu'ils pensent

Peut-on contrôler des LLMs qui ne pas honnêtes sur leurs intentions ?

Papier : Reasoning Models Don't Always Say What They Think

Présenté par : Thomas Winninger (https://sckathach.github.io)

11/05/2025

Quand les LLMs deviennent RADIOACTIFS ☢️

Concevoir des watermarks qui se transmettent de modèle en modèle

Papier : Watermarking Makes Language Models Radioactive

23/03/2025

Alignement Multi-Objectif

Comment étendre le RLHF et la DPO pour satisfaire plusieurs préférences

Papier : Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization

16/03/2025

Controle démocratique des valeurs des IA

Les LLMs ont un système de valeurs morales, et on peut les modifier démocratiquement

Papier : Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

9/03/2025

Broad misalignment from narrow finetuning

Ou pourquoi faire dire '666' à des LLMs les rend dangereux

Papier : Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

26/01/2025

Scalable oversight: blue team vs red team

Des methodes innovantes pour diminuer les risques d'IA de plus en plus intelligentes

Papier : AI Control: Improving Safety Despite Intentional Subversion

01/12/24

Un framework pour penser la confiance en les IA

Comment formaliser l'idée de confiance en une IA pour pouvoir l'implémenter ?

Papier : Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and Goals of Human Trust in AI

24/11/24

Data Ownership Verification with Data Poisoning

Empoisonner pour signer des données, plus puissant que le watermarking ?

Papier : DATA TAGGANTS: DATASET OWNERSHIP VERIFICATION VIA HARMLESS TARGETED DATA POISONING

11/11/24

Introspection in LLMs

En un sens, on peut finetune les LLMs actuels pour qu'ils soient capables d'introspection

Papier : Looking Inward: Language Models Can Learn About Themselves by Introspection

20/10/24

Représentants algorithmiques

L'opportunité de donner nos droits de vote à des algorithmes

Papier : WeBuildAI: Participatory Framework for Algorithmic Governance

13/10/24

Privacy backdoors & MIA

Récupérer des données confidentielles qui ont servi à entrainer le modèle

Papier : Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models

6/10/24

Fundamentals limits of alignment in LLMs

Un résultat fondamental sur l'imperfection des IA

Papier : Fundamentals limits of alignment in LLMs

22/09/24

Watermarking LLMs

Comment introduire une signature invisible dans les textes générés par IA

Papier : A Watermark for Large Language Models
Article récapitulatif : ici

15/09/24

Limits of Machine Unlearning

Pourquoi on ne peut jamais vraiment faire oublier des IA

Papier : Machine Unlearning Fails to Remove Data Poisoning Attacks

08/09/24

Inference Time intervention using semantic vectors

Modifier les comportements des modèles de manière chiurgicale

Papier : Refusal in LLMs is mediated by a single direction
Article récapitulatif : ici

01/09/24

Introduction au RLHF

Comment chatGPT est éduqué

Papier : Deep reinforcement learning from human preferences