Google a récemment lancé Gemini 2.5 Flash pour les développeurs, marquant une avancée significative dans l’IA. Ce nouvel outil, intégré à l’application Gemini, promet des performances optimisées et une meilleure expérience utilisateur, renforçant ainsi la position de Google dans le domaine des technologies innovantes.

Google déploie aujourd’hui Gemini 2.5 Flash en version préliminaire, après en avoir brièvement parlé la semaine dernière. Ce modèle introduit un « budget de réflexion » permettant aux développeurs de contrôler le niveau de raisonnement en fonction des instructions et des cas d’utilisation.
Tous les modèles de la famille Gemini 2.5 possèdent des capacités de raisonnement qui leur permettent de « réfléchir avant de répondre », offrant ainsi « une performance améliorée et une précision accrue ». Cela s’avère particulièrement utile pour des instructions nécessitant un raisonnement en plusieurs étapes, tel que des problèmes mathématiques ou l’analyse de questions de recherche.
Au lieu de générer immédiatement un résultat, le modèle peut effectuer un processus de « réflexion » pour mieux comprendre la requête, décomposer des tâches complexes et planifier sa réponse.
Pour les Développeurs
Les modèles Flash de Gemini sont reconnus pour leur rapidité et leur coût réduit. Avec Gemini 2.5 Flash, Google introduit des capacités de raisonnement permettant aux développeurs de « définir des budgets de réflexion pour équilibrer coût et qualité ».
Voici les principales spécifications de Gemini 2.5 Flash en version préliminaire (gemini-2.5-flash-preview-04-17) :
- Limites de taux : 1000 RPM / 10 000 RPD (niveau payant), 10 RPM / 500 RPD (niveau gratuit)
- Point de coupure des connaissances : Janvier 2025
- Modalités d’entrée : Texte, Images, Vidéo, Audio
- Modalités de sortie : Texte
- Fenêtre de contexte : 1 million de tokens
- Longueur maximale de sortie : 64K tokens

Les développeurs ont la possibilité de contrôler « le nombre de tokens qu’un modèle peut générer pendant sa réflexion » de 0 à 24 576 tokens. Un curseur est disponible dans Google AI Studio et Vertex AI, ainsi qu’un paramètre API. Les graphiques ci-dessous montrent comment la qualité du raisonnement s’améliore avec l’augmentation du budget.
Avec un budget de réflexion fixé à zéro, ce nouveau modèle égalera les coûts et la latence de 2.0 Flash.


Si aucun budget n’est spécifié, Gemini 2.5 Flash « décide automatiquement combien penser en fonction de la complexité perçue de la tâche ». Google fournit des exemples de raisonnement minimal, moyen et élevé :
Instructions avec un raisonnement minimal :
- « Merci » en espagnol.
- Combien de provinces le Canada compte-t-il ?
Instructions avec un raisonnement moyen :
- Vous lancez deux dés. Quelle est la probabilité qu’ils s’additionnent à 7 ?
- Ma salle de gym a des heures de jeu pour le basket entre 9h et 15h les lundis, mercredis et vendredis, et entre 14h et 20h les mardis et samedis. Si je travaille de 9h à 18h cinq jours par semaine et que je souhaite jouer 5 heures de basket en semaine, créez un emploi du temps pour que tout cela fonctionne.
Instructions avec un raisonnement élevé :

Dans le contexte des agents, un autre exemple indique que des résumés rapides nécessiteraient un faible budget de réflexion, tandis qu’une analyse détaillée exigerait un budget plus élevé. Gemini 2.5 Flash est disponible en prévisualisation pour les développeurs dans Google AI Studio et Vertex AI. Google annonce qu’il « continuera d’améliorer Gemini 2.5 Flash, avec d’autres nouveautés à venir prochainement, avant de le rendre disponible pour une utilisation en production complète. »
Application Gemini
La version 2.5 Flash (expérimentale) sera également intégrée à l’application Gemini, permettant d’ajuster automatiquement le niveau de raisonnement en fonction de la complexité de l’instruction. Les utilisateurs finaux ne bénéficieront d’aucun ajustement manuel dans l’application.
Lors de son lancement, les diverses capacités de l’application Gemini, telles que les applications/extensions, le téléchargement de fichiers, etc., seront supportées, tandis que ce modèle remplacera le 2.0 Flash Thinking (expérimental), qui a été mis à jour pour la dernière fois en mars.

Nous utilisons des liens d’affiliation générant des revenus. En savoir plus.
Qu’est-ce que Gemini 2.5 Flash ?
Gemini 2.5 Flash est une version de prévisualisation qui permet aux développeurs de contrôler le raisonnement en fonction de l’invite et du cas d’utilisation. Il comprend des capacités de raisonnement qui améliorent la performance et l’exactitude.
Comment fonctionne le budget de raisonnement ?
Les développeurs peuvent définir un « budget de réflexion » qui contrôle combien de raisonnement se produit lors de l’exécution d’une tâche. Cela peut aller de 0 à 24 576 jetons, permettant d’optimiser le coût par rapport à la qualité.
Quelles sont les spécifications clés de Gemini 2.5 Flash ?
Les spécifications incluent des limites de taux, un cutoff de connaissance en janvier 2025, et des modalités d’entrée telles que texte, images, vidéo et audio, avec une fenêtre de contexte de 1 million de jetons.
Où puis-je utiliser Gemini 2.5 Flash ?
Gemini 2.5 Flash est disponible pour les développeurs dans Google AI Studio et Vertex AI, et également dans l’application Gemini, avec la capacité d’ajuster automatiquement le raisonnement en fonction de la complexité de l’invite.
