Le PIAF propose un groupe de lecture hebdomadaire sur la sûreté de l’IA.
Principe
Lors d’une séance, un membre du groupe présente un exposé sur un article de recherche de son choix. Cette réunion permet à chacun d’apprendre plus sur la sûreté de l’IA et de se renseigner sur les avancées dans le domaine. L’exposé est accessible aux non-experts et est accompagné d’un temps de questions.
Organisation
Les séances du groupe de lecture sont ouvertes à tous et ont lieu en présentiel chaque dimanche à Polytechnique. Pour vous tenir au courant des prochains rendez-vous, rejoignez notre serveur Discord.
Voir aussi
Nous proposerons également un événement en semaine : le Jeud’IA.
Les exposés à venir
Nous n'avons pas encore prévu notre prochain exposé pour le moment. Patience...
Nos exposés passés
23/03/2025
Alignement Multi-Objectif
Comment étendre le RLHF et la DPO pour satisfaire plusieurs préférences
Papier : Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization
16/03/2025
Controle démocratique des valeurs des IA
Les LLMs ont un système de valeurs morales, et on peut les modifier démocratiquement
Papier : Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
9/03/2025
Broad misalignment from narrow finetuning
Ou pourquoi faire dire '666' à des LLMs les rend dangereux
Papier : Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
26/01/2025
Scalable oversight: blue team vs red team
Des methodes innovantes pour diminuer les risques d'IA de plus en plus intelligentes
Papier : AI Control: Improving Safety Despite Intentional Subversion
01/12/24
Un framework pour penser la confiance en les IA
Comment formaliser l'idée de confiance en une IA pour pouvoir l'implémenter ?
Papier : Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and Goals of Human Trust in AI
24/11/24
Data Ownership Verification with Data Poisoning
Empoisonner pour signer des données, plus puissant que le watermarking ?
Papier : DATA TAGGANTS: DATASET OWNERSHIP VERIFICATION VIA HARMLESS TARGETED DATA POISONING
11/11/24
Introspection in LLMs
En un sens, on peut finetune les LLMs actuels pour qu'ils soient capables d'introspection
Papier : Looking Inward: Language Models Can Learn About Themselves by Introspection
20/10/24
Représentants algorithmiques
L'opportunité de donner nos droits de vote à des algorithmes
Papier : WeBuildAI: Participatory Framework for Algorithmic Governance
13/10/24
Privacy backdoors & MIA
Récupérer des données confidentielles qui ont servi à entrainer le modèle
Papier : Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models
6/10/24
Fundamentals limits of alignment in LLMs
Un résultat fondamental sur l'imperfection des IA
22/09/24
Watermarking LLMs
Comment introduire une signature invisible dans les textes générés par IA
Papier :
A Watermark for Large Language Models
Article récapitulatif :
ici
15/09/24
Limits of Machine Unlearning
Pourquoi on ne peut jamais vraiment faire oublier des IA
Papier : Machine Unlearning Fails to Remove Data Poisoning Attacks
08/09/24
Inference Time intervention using semantic vectors
Modifier les comportements des modèles de manière chiurgicale
Papier :
Refusal in LLMs is mediated by a single direction
Article récapitulatif :
ici
01/09/24