DeepSeek : l’OVNI chinois qui secoue l’IA

Posté le 7 février 2025
par Philippe RICHARD dans Informatique et Numérique

Le lancement d’un ChatGPT par les Chinois rebat-il les cartes ? L’hégémonie des géants américains est-elle remise en cause ? Passée l’excitation suscitée par cette apparition surprise, quels sont les secrets de DeepSeek qui se présente comme une rupture technologique ? Les Techniques de l’ingénieur font le point.

Coup de tonnerre dans le monde de l’intelligence artificielle. « DeepSeek : l’IA qui révolutionne le secteur », « Comment DeepSeek a réussi à développer un modèle d’IA low cost et performant », « DeepSeek, une menace fantôme pour Wall Street ? », etc. Le concurrent chinois de ChatGPT, appelé Web Chat, a fait la Une des médias fin janvier.

Depuis, le soufflé est un peu retombé, car de nombreux experts ont analysé et testé cette solution développée par DeepSeek, une start-up chinoise fondée en 2023 et détenue par High-Flyer, un fonds d’investissement spéculatif. Elle compte environ 200 personnes, soit plus que le Français MistralAI qui propose notamment « Le Chat », l’équivalent de ChatGPT^[1] développé par l’américain OpenAI.

Parmi les annonces qui ont le plus marqué les spécialistes de l’IA : les coûts extrêmement bas annoncés par les Chinois. Pour DeepSeek v3, le budget de calcul serait de 5,6 millions de dollars alors qu’OpenAI mettrait dix fois plus de dollars !

« Le montant annoncé [serait] tout à fait plausible… si DeepSeek louait ses serveurs à des acteurs spécialisés pendant deux ou trois ans, à deux dollars par GPU par heure. (…) Mais ce budget n’inclut pas les expérimentations, les salaires des employés et experts, ainsi que les travaux de raffinement des données », précise le journaliste Gaétan Raoul, sur le site LeMagIT.

Ce n’est pas la taille des LLM qui compte…

Face aux sanctions américaines sur l’export des puces IA vers la Chine, DeepSeek a dû optimiser ses GPU NVIDIA H800, malgré une bande passante limitée. Les Chinois ont accès à 11 100 GPU Nvidia A100 d’anciennes générations en plus d’un lot de 2 048 GPU Nvidia H800, des versions amoindries des GPU H100, plus modernes.

En clair, alors que d’autres laboratoires entraînent des modèles toujours plus vastes, DeepSeek adopte une stratégie de distillation avec des IA ultra-optimisées pour des tâches précises (dont la communication inter-puces), ce qui réduirait également la consommation énergétique.

L’approche est en effet différente. Avec ChatGPT, tous les paramètres sont activés à chaque requête. Avec DeepSeek, seuls les « experts » pertinents sont activés à chaque requête.

Imaginons une salle avec 100 experts. ChatGPT interroge tout le monde, même ceux hors sujet. DeepSeek ne sollicite que les plus compétents, optimisant la charge de calcul et les performances.

DeepSeek prouve que l’avenir de l’IA n’est pas seulement dans la taille des modèles, mais dans l’optimisation intelligente et ciblée.

La seconde annonce qui a interpellé les spécialistes est l’affirmation selon laquelle DeepSeek est une rupture technologique. La réalité est moins séduisante. Les Chinois exploitent ce qu’on appelle des « experts », c’est-à-dire des petits réseaux de neurones qui traitent certains sujets (grammaire, mathématiques, histoire, etc.).

DeepSeek a aussi déployé la prédiction multitoken. Cette approche vise à prédire plusieurs mots à la fois, et non plus un seul. En fait, ces deux techniques sont déjà utilisées par Google, MistralAI et Microsoft depuis quelques années. Enfin, certains experts et OpenAI soupçonnent la start-up chinoise d’avoir exploité ses modèles à travers ChatGPT pour obtenir des réponses plus pertinentes.

Mais au final, la principale question qui intéresse le grand public, mais aussi des entreprises, est « Web Chat de DeepSeek est-il plus performant que ChatGPT ? ». Dans l’ensemble, les résultats sont assez proches entre la solution d’OpenAI, de MistralAI, ou encore de Claude d’Anthropic (une entreprise américaine fondée en 2021 par d’anciens membres d’OpenAI).

Mais, ce n’est pas toujours le cas et certains sujets restent très sensibles : les événements de la place Tian’anmen en 1989, le sort des Ouïghours (la Chine est accusée d’avoir commis des crimes contre l’humanité à l’encontre de la population ouïghoure et d’autres groupes ethniques)…

Reste la question de la confidentialité des données. DeepSeek stocke les informations sur des serveurs chinois. Certains pays (Taïwan, l’Italie, l’Australie…) ont d’ores et déjà interdit cette solution. Les autorités belges, irlandaises et françaises vont demander des précisions à cette start-up.

[1] ChatGPT

Pour aller plus loin

Dans l'actualité

Dans les ressources documentaires