Séminaire au DIC: «Many-Shot In-Context Learning» par Rishabh Agarwal
Séminaire ayant lieu dans le cadre du doctorat en informatique cognitive, en collaboration avec le centre de recherche CRIA et l'ISC
Rishabh AGARWAL
Jeudi le 3 octobre 2024 à 10h30
Local: PK-5115 (Il est possible d'y assister en virtuel en vous inscrivant ici)
Titre : Many-Shot In-Context Learning
Résumé
Les grands modèles de langage (LLMs) excellent en apprentissage in-context (ICL) avec peu d’exemples. Les fenêtres de contexte élargies permettent d’explorer l’ICL avec des centaines ou milliers d’exemples : apprentissage à nombreux exemples. Cela améliore les performances sur des tâches variées. L’ICL à nombreux exemples peut être limité par le nombre d’exemples humains disponibles. Pour y remédier, nous explorons l’ICL renforcé et non supervisé. (1) L’ICL renforcé utilise des raisonnements générés par le modèle. (2) L’ICL non supervisé se base uniquement sur des questions spécifiques au domaine. Ces méthodes sont particulièrement efficaces pour les tâches de raisonnement complexe.
Abstract : Large language models (LLMs) excel at few-shot in-context learning (ICL): learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples: many-shot learning. Going from few-shot to many-shot yields significant performance gains across a wide variety of generative and discriminative tasks. Many-shot ICL can be bottlenecked by the available number of human-generated examples. To mitigate this, we explore Reinforced and Unsupervised ICL. (1) Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. (2) Unsupervised ICL removes rationales from the prompt altogether and prompts the model only with domain-specific questions. Both Reinforced and Unsupervised ICL can be quite effective in many-shot regime learning, particularly on complex reasoning tasks. Unlike few-shot learning, many-shot learning is effective at overriding pretraining biases; it can learn high-dimensional functions with numerical inputs, and it performs comparably to fine-tuning. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.
Biographie
Rishabh AGARWAL est chercheur principal chez Google DeepMind à Montréal et professeur adjoint à McGill. Après une année avec Geoffrey Hinton à Google Brain, il a fait son doctorat à Mila sous la direction d’Aaron Courville et Marc Bellemare. Ses recherches portent sur l’apprentissage par renforcement profond, avec des applications aux problèmes réels.
Références
Agarwal, Rishabh, et al. "Many-shot in-context learning." arXiv preprint arXiv:2404.11018 (2024).
Agarwal, Rishabh, et al. (2021): "Deep reinforcement learning at the edge of the statistical precipice." Advances in neural information processing systems 34 29304-29320.
Date / heure
Lieu
Prix
Renseignements
- Mylene Dagenais
- dic@uqam.ca
- https://www.dic.uqam.ca