Pendant des années, « utiliser l'IA » revenait à envoyer ses mots ou ses photos vers un immense data center, à patienter, puis à recevoir la réponse par internet. C'est encore ainsi que fonctionnent les modèles les plus puissants. Mais, en toute discrétion, une bonne partie de l'IA a déménagé ailleurs : directement sur la puce qui tient dans votre main.
En 2026, Apple, Google, Microsoft et Qualcomm proposent tous une IA qui s'exécute en local sur les téléphones et les ordinateurs portables. Ce guide explique ce qu'est réellement l'IA on-device, à quoi sert ce mystérieux « NPU » qui apparaît dans les fiches techniques, pourquoi téléphones et PC racontent deux histoires différentes et — sans détour — là où l'IA locale reste en retrait face au cloud.
Ce que signifie vraiment « IA on-device »
L'IA on-device (aussi appelée IA locale) fait tourner un modèle d'IA directement sur les puces de votre appareil, au lieu d'envoyer vos données vers un serveur distant. Le modèle est entraîné en amont, puis une version compressée est téléchargée sur votre téléphone ou votre PC. Lorsque vous utilisez une fonctionnalité, l'appareil exécute ce modèle sur votre entrée — texte, photo, audio — et produit le résultat en local.
Vous l'utilisez probablement déjà : déverrouillage facial, texte prédictif et réponses suggérées, traduction en direct, transcription hors ligne, retouche photo et suppression du bruit pendant les appels sont de plus en plus traités sur l'appareil lui-même. Les avantages phares sont simples : la confidentialité (vos données peuvent rester sur l'appareil), la disponibilité hors ligne et la rapidité (pas d'aller-retour vers un serveur).
Pourquoi une puce classique ne suffisait pas : place au NPU
Si tout cela devient soudain possible, c'est grâce à un composant en silicium appelé le NPU — neural processing unit (unité de traitement neuronal).
Voyez-le comme une calculatrice conçue pour le seul type de calcul dont les modèles d'IA ont besoin : des milliers de milliards d'opérations minuscules et répétitives. Un CPU ou un GPU généraliste sait faire ce calcul, mais le NPU le réalise de façon bien plus économe en énergie — Qualcomm décrit son NPU comme nettement plus efficace par opération que les CPU et les GPU pour les tâches d'IA. C'est là tout l'enjeu : c'est ce qui permet à votre téléphone d'exécuter des fonctions d'IA sans faire fondre la batterie.
Vous verrez les NPU notés en TOPS — trillions d'opérations par seconde. Plus le chiffre est élevé, plus la marge pour l'IA est généralement grande, mais traitez les TOPS comme une valeur indicative, pas un score de performance. La vitesse réelle dépend de l'ensemble de la puce, de la mémoire et du logiciel ; un NPU à TOPS plus faible d'une génération peut égaler un NPU à TOPS plus élevé d'une autre. N'achetez pas sur le seul chiffre des TOPS.
Côté téléphone : petits modèles, budget serré
Les téléphones font tourner l'IA sous un strict budget de batterie et de chaleur : ils utilisent donc des modèles petits et fortement optimisés.
Le modèle de fondation on-device d'Apple, par exemple, est un modèle d'environ 3 milliards de paramètres optimisé pour les puces Apple, et il est fortement quantifié — compressé pour tenir et tourner efficacement (les poids principaux utilisent environ 2 bits chacun, d'autres parties restant à une précision plus élevée). En septembre 2025, Apple a ouvert ce modèle on-device à tous les développeurs via son framework Foundation Models : des applications tierces — pas seulement le système d'exploitation — peuvent ainsi l'utiliser sur les appareils compatibles Apple Intelligence. (Apple Newsroom)
Sur Android, Google embarque le tout dernier Gemini Nano sur le Pixel 10, propulsé par la puce Tensor G5 et exposé aux applications via les API GenAI de ML Kit pour résumer, corriger, reformuler et décrire des images. (Google)
Ce que les petits modèles on-device débloquent sur un téléphone :
- Traduction en direct et transcription hors ligne
- Réponses suggérées et suggestions de texte sur l'appareil
- Retouche photo et amélioration des scènes
- Commandes vocales et suppression du bruit pendant les appels
- Tout cela fonctionnant sans connexion internet
Côté ordinateur portable : davantage de marge
Les PC portables sont une plateforme réellement différente. Ils disposent de plus de puissance et de refroidissement : ils peuvent donc exécuter des modèles locaux plus volumineux et des charges de travail plus lourdes.
Microsoft a tracé une ligne nette avec la catégorie Copilot+ PC : une machine sous Windows 11 ne s'y qualifie que si elle dispose d'un NPU noté à 40+ TOPS (plus 16 Go de RAM et 256 Go de stockage), ce qui débloque ses fonctions d'IA on-device accélérées. Les puces éligibles incluent Qualcomm Snapdragon X, Intel Core Ultra et AMD Ryzen AI. (Microsoft)
| Téléphone | PC portable (catégorie Copilot+/AI PC) | |
|---|---|---|
| Modèle local typique | Petit (ex. ~3 Md de paramètres) | Modèles plus grands, tâches plus lourdes |
| Budget énergétique | Serré (batterie + chaleur) | Plus de marge |
| Seuil NPU | Variable selon l'appareil | 40+ TOPS pour Copilot+ |
| Idéal pour | Fonctions rapides, privées, en déplacement | IA locale soutenue et plus lourde |
À retenir : un bon téléphone vous offre de petites fonctions rapides et privées ; un PC de catégorie Copilot+/AI PC vous donne de la marge pour aller plus loin.
Les quatre vrais avantages (avec la nuance honnête)
- Rapidité — pas d'aller-retour réseau, donc beaucoup de fonctions semblent instantanées. Nuance : seulement pour les tâches que le modèle local peut gérer.
- Confidentialité — les données peuvent rester sur l'appareil, ce qui réduit l'exposition aux fuites côté serveur et au partage avec des tiers, un avantage souligné par les régulateurs. Nuance : local ≠ automatiquement sûr — voir plus bas.
- Hors ligne — les fonctions continuent de marcher dans un avion, en zone rurale ou avec un mauvais signal.
- Pas de frais cloud par requête — une fois le modèle installé sur votre appareil, vous n'êtes pas facturé à la requête. Nuance : ce n'est pas « gratuit ». Cela consomme toujours votre batterie et votre puissance de calcul, et il a d'abord fallu un matériel capable de le faire tourner.
Les limites, sans fard
L'IA on-device est réellement utile, mais le battage médiatique escamote les compromis :
- Écart de capacité. Les petits modèles locaux ne peuvent égaler les modèles cloud de pointe sur le raisonnement approfondi, les très longs contextes ou les tâches les plus ardues.
- La quantification coûte en qualité. Compresser un modèle pour tenir sur un appareil sacrifie une part de précision au profit de la taille et de la vitesse.
- Batterie et chaleur. L'inférence locale soutenue consomme de l'énergie et génère de la chaleur ; les chiffres de consommation qui circulent sont des estimations, pas des mesures pour un téléphone donné.
- « Privé » n'est pas « automatiquement sécurisé ». Un modèle et vos données personnelles vivent désormais sur l'appareil : ils ont donc toujours besoin du chiffrement de l'appareil, de contrôles d'accès et d'autorisations d'applications raisonnables. Le local réduit certains risques ; il n'efface pas votre responsabilité.
Pourquoi la plupart des IA de 2026 sont hybrides
À cause de ces limites, le modèle réaliste n'est pas « le local remplace le cloud ». C'est l'hybride : les tâches simples, privées et sensibles à la latence s'exécutent sur l'appareil, et les plus difficiles sont routées vers un modèle cloud plus puissant. Apple comme Google conçoivent leurs systèmes ainsi — le local d'abord, le cloud quand c'est nécessaire.
Pour comprendre le versant cloud de ce partage — et la différence entre un chatbot et un logiciel qui agit à votre place — voyez nos explications sur ChatGPT vs Claude vs Gemini et ce que sont réellement les agents IA.
Faut-il s'en soucier pour votre prochain appareil ?
Un repère court et pratique :
- Téléphone : si vous voulez les meilleures fonctions on-device, visez un modèle récent doté d'un NPU performant (un iPhone compatible Apple Intelligence, ou un Pixel 10 avec Tensor G5). Ne surpayez pas pour courir après une spec que vous n'utiliserez pas.
- PC portable : si l'IA locale compte pour vous, un Copilot+ PC (NPU 40+ TOPS) est le palier évident. Sinon, un portable moderne classique reste parfaitement bon — vous vous appuierez simplement sur l'IA cloud.
- Dans tous les cas : ignorez le marketing des TOPS bruts et jugez sur les fonctions réelles que vous utiliserez au quotidien.
FAQ
Qu'est-ce que l'IA on-device ? Elle fait tourner des modèles d'IA directement sur votre téléphone ou votre PC à l'aide de ses propres puces (généralement un NPU aux côtés du CPU et du GPU), au lieu d'envoyer vos données vers un serveur cloud distant. Le traitement a lieu en local : les fonctions peuvent marcher hors ligne et vos données peuvent rester sur l'appareil.
Qu'est-ce qu'un NPU et pourquoi l'IA on-device en a-t-elle besoin ? Un NPU (neural processing unit) est une puce conçue pour le calcul des modèles d'IA — des milliers de milliards d'opérations par seconde (TOPS) — de façon bien plus économe en énergie qu'un CPU ou un GPU. C'est cette efficacité qui permet à un téléphone ou un PC d'exécuter des fonctions d'IA sans vider la batterie.
Quelle différence entre IA on-device et IA cloud ? L'IA on-device exécute des modèles plus petits en local : rapide, privée, capable de fonctionner hors ligne, sans frais par requête, mais limitée par la mémoire et la batterie. L'IA cloud fait tourner des modèles bien plus grands sur des serveurs : raisonnement plus poussé et contexte plus large, mais elle exige une connexion et envoie des données hors de l'appareil. En 2026, la plupart des produits utilisent un mélange hybride des deux.
L'IA on-device est-elle plus privée et plus sécurisée ? Souvent oui — garder les données sur l'appareil réduit l'exposition aux fuites côté serveur et au partage avec des tiers. Mais ce n'est pas automatique : un modèle et vos données stockés en local ont toujours besoin du chiffrement de l'appareil, de contrôles d'accès et d'autorisations raisonnables.
L'IA on-device fonctionne-t-elle hors ligne ? Oui. Comme le modèle s'exécute en local, ces fonctions continuent de marcher sans internet. Les tâches qui nécessitent un modèle cloud plus grand exigent toujours une connexion.
Faut-il un appareil spécial ? Pour les fonctions les plus performantes, oui. Sur téléphone, un appareil récent doté d'un NPU performant ; sur PC portable, la catégorie Copilot+ de Microsoft exige un NPU 40+ TOPS (Snapdragon X, Intel Core Ultra ou AMD Ryzen AI).
L'IA on-device est-elle vraiment gratuite ? Elle est exempte de frais cloud par requête — vous n'êtes pas facturé à la requête une fois le modèle installé sur votre appareil. Mais elle n'est pas sans coût : elle utilise votre batterie et votre puissance de calcul, et il a fallu un matériel capable de la faire tourner.
En résumé
L'IA on-device est l'un des virages discrets les plus importants de la tech grand public : de la vraie IA, qui tourne sur la puce dans votre poche, rapide, privée et hors ligne. Gardez simplement le cadre honnête en tête : le local gère le quotidien, le cloud assure encore le gros du travail, et « on-device » signifie pas de frais cloud, pas aucun coût. D'ici la fin de 2026, attendez-vous à ce que la frontière entre les deux continue de s'estomper à mesure que le modèle hybride mûrit.



