Une offensive chinoise dans la course aux modèles multimodaux
Alibaba Cloud a dévoilé le 1er décembre 2025 Qwen3-Omni-Flash-2025-12-01, la dernière itération de sa famille de modèles d’intelligence artificielle multimodaux. Ce nouveau système natif de génération représente une avancée majeure dans la capacité des IA à comprendre et générer simultanément plusieurs types de contenus.
- Une offensive chinoise dans la course aux modèles multimodaux
- Une architecture Thinker-Talker pour des réponses ultra-rapides
- Des performances au sommet des benchmarks
- Un support multilingue étendu
- Trois variantes pour des usages spécifiques
- Une stratégie open source ambitieuse
- Des applications pratiques variées
- Une personnalisation poussée via les prompts système
- Un modèle économique disruptif
- L’adoption mondiale des modèles chinois s’accélère
Qwen3-Omni se distingue par sa capacité à traiter de manière transparente plusieurs modalités d’entrée : texte, images, audio et vidéo, tout en générant des sorties textuelles et vocales naturelles par le biais de réponses en continu et en temps réel. Cette prouesse technique positionne Alibaba comme un concurrent direct d’OpenAI et de Google sur le terrain des modèles multimodaux.
Contrairement aux systèmes qui ont ajouté progressivement la parole ou la vision à des modèles initialement conçus pour le texte, Qwen3-Omni intègre toutes les modalités dès le départ. Cette approche native permet un traitement plus efficace et cohérent des entrées multimédias complexes.
Une architecture Thinker-Talker pour des réponses ultra-rapides
L’architecture technique de Qwen3-Omni repose sur un système innovant à deux composantes : le Thinker (penseur) et le Talker (parleur). Le Thinker gère le raisonnement et la compréhension multimodale, tandis que le Talker génère la parole naturelle en audio.
Les deux composants s’appuient sur des architectures Mixture-of-Experts (MoE) pour supporter une haute concurrence et une inférence rapide. Le Talker est découplé des représentations textuelles du Thinker et se conditionne directement sur les caractéristiques audio et visuelles, permettant une parole plus naturelle coordonnée avec l’audio et la vidéo.
Cette architecture permet d’atteindre des latences théoriques de bout en bout impressionnantes : 234 millisecondes (0,234 secondes) pour la première sortie audio et 547 millisecondes pour la première sortie vidéo. Ces performances garantissent une expérience d’interaction en temps réel avec l’IA.
La génération de parole est assurée par un schème autorégressif multi-codebook et un ConvNet Code2Wav léger, qui ensemble réduisent la latence tout en préservant les détails vocaux. Le système de streaming est central dans la conception : Qwen3-Omni peut commencer à répondre avant même d’avoir terminé le traitement de l’ensemble de la requête.
Des performances au sommet des benchmarks
Sur 36 benchmarks de référence, Qwen3-Omni atteint l’état de l’art sur 22 d’entre eux et surpasse tous les modèles open source sur 32 benchmarks. Ces résultats placent le modèle chinois au niveau, voire au-dessus, de concurrents fermés comme GPT-4o d’OpenAI et Gemini 2.5 Pro de Google.
Dans le domaine du texte et du raisonnement, Qwen3-Omni affiche 65,0 sur AIME25, dépassant largement GPT-4o (26,7), et 76,0 sur ZebraLogic, surpassant Gemini 2.5 Flash (57,9). Sur WritingBench, il atteint 82,6, contre 75,5 pour GPT-4o.
Les performances en reconnaissance vocale sont tout aussi impressionnantes. Sur le benchmark Wenetspeech, Qwen3-Omni enregistre des taux d’erreur de mots (WER) de 4,69 et 5,89, bien meilleurs que les 15,30 et 32,27 de GPT-4o. La compréhension audio et les capacités de conversation vocale sont comparables à celles de Gemini 2.5 Pro.
Ces résultats suggèrent que les entreprises pourraient obtenir de meilleures performances en reconnaissance vocale, transcription et raisonnement multimodal par rapport à de nombreux rivaux propriétaires.
Un support multilingue étendu
Qwen3-Omni supporte 119 langues pour le texte, 19 langues pour l’entrée vocale et 10 langues pour la sortie vocale. Pour l’entrée vocale, le modèle prend en charge l’anglais, le chinois mandarin, le coréen, le japonais, l’allemand, le russe, l’italien, le français, l’espagnol, le portugais, le malais, le néerlandais, l’indonésien, le turc, le vietnamien, le cantonais, l’arabe et l’ourdou.
Qwen3-ASR-Flash, le modèle de reconnaissance vocale automatique développé parallèlement, offre une précision et une robustesse remarquables sur 11 langues majeures. Il prend également en charge plusieurs dialectes chinois, dont le sichuanais, le minnan (hokkien), le wu et le cantonais, ainsi qu’une large gamme d’accents anglais régionaux.
Cette couverture linguistique extensive fait de Qwen3-Omni un outil particulièrement adapté aux entreprises multinationales et aux applications nécessitant un support linguistique diversifié.
Trois variantes pour des usages spécifiques
Alibaba Cloud propose trois versions distinctes de Qwen3-Omni-30B-A3B, chacune servant des objectifs différents :
Le modèle Instruct est la version la plus complète, combinant les composants Thinker et Talker pour gérer les entrées audio, vidéo et texte, et générer des sorties texte et parole. C’est la version recommandée pour les interactions multimodales complètes.
Le modèle Thinking se concentre sur les tâches de raisonnement et le traitement de longues chaînes de pensée. Il accepte les mêmes entrées multimodales mais limite la sortie au texte, le rendant plus adapté aux applications nécessitant des réponses écrites détaillées. Ce modèle supporte des longueurs de contexte allant jusqu’à 65 536 tokens avec des chaînes de raisonnement de 32 768 tokens.
Le modèle Captioner est une variante affinée spécifiquement pour le sous-titrage audio, produisant des descriptions textuelles précises des entrées audio avec peu d’hallucinations. Ce modèle est particulièrement utile pour la transcription et l’analyse de contenu audio.
Une stratégie open source ambitieuse
Contrairement à OpenAI et Google qui gardent jalousement leurs modèles propriétaires, Alibaba a choisi de rendre Qwen3-Omni disponible sous licence Apache 2.0, permettant un usage commercial libre et gratuit. Cette approche stratégique vise à favoriser une adoption massive et à construire un écosystème de développeurs autour des technologies Qwen.
Les développeurs ont déjà créé plus de 140 000 modèles dérivés de Qwen sur Hugging Face, témoignant de l’engouement de la communauté pour cette famille de modèles. Cette stratégie open source permet également à Alibaba de bénéficier des contributions de milliers de développeurs à travers le monde pour améliorer et étendre les capacités de ses modèles.
Tulika Sheel, vice-présidente senior chez Kadence International, analyse : « Rendre Qwen3-Omni disponible sous une licence Apache 2.0 permissive change matériellement les options sur la table pour les entreprises. Cela élimine le verrouillage fournisseur et abaisse la barrière à l’expérimentation et la personnalisation. »
Des applications pratiques variées
Qwen3-Omni ouvre la porte à une multitude d’applications pratiques dans différents domaines. Le modèle excelle dans la transcription multilingue, la traduction vocale bidirectionnelle (speech-to-text et speech-to-speech), et le sous-titrage audio détaillé.
Dans le domaine musical, Qwen3-Omni peut fournir une analyse et une appréciation détaillées de n’importe quelle musique, incluant le style, le genre, le rythme et d’autres caractéristiques. Il peut également décrire et analyser divers effets sonores et signaux audio.
Pour la compréhension vidéo, le modèle peut analyser des contenus visuels complexes et générer des descriptions détaillées ou répondre à des questions sur le contenu vidéo. Il peut également effectuer de la reconnaissance optique de caractères (OCR) sur des images et des documents.
Les assistants IA en temps réel constituent un autre domaine d’application prometteur. Grâce à ses faibles latences et à sa capacité de streaming, Qwen3-Omni peut alimenter des assistants vocaux interactifs pour le support technique, le service client ou l’assistance personnelle.
Une personnalisation poussée via les prompts système
La version Flash de Qwen3-Omni ouvre entièrement les autorisations de personnalisation des prompts système, permettant aux utilisateurs de contrôler finement le mode de comportement du modèle. Il est possible de définir des personnages spécifiques, des styles de communication particuliers ou des descriptions de rôle adaptées au contexte d’utilisation.
Les entreprises peuvent ainsi adapter le modèle à leurs besoins spécifiques : un ton formel pour les services financiers, un style décontracté pour les applications grand public, ou encore un vocabulaire technique pour les assistants spécialisés.
Cette flexibilité de configuration, combinée à la nature open source du modèle, permet aux organisations de déployer Qwen3-Omni dans leurs propres environnements sans friction de licence et avec un contrôle total sur le comportement de l’IA.
Un modèle économique disruptif
Qwen3-Omni-Flash est disponible via API avec une tarification particulièrement compétitive : 1 yuan par million de tokens en entrée et 3 yuans par million de tokens en sortie (environ 0,12 € et 0,36 € respectivement). Ce modèle tarifaire place Alibaba en position de force face aux offres propriétaires des géants américains.
Cette accessibilité économique, couplée aux performances techniques du modèle, pourrait accélérer l’adoption de l’IA multimodale dans des secteurs jusqu’ici freinés par les coûts élevés des solutions existantes.
Pour les scénarios qui mettent l’accent sur la voix et le style, comme le streaming en direct, les vidéos courtes et les réunions virtuelles, cette approche réduit effectivement le coût des « doubleurs + narration en post-production » à presque zéro, selon les analystes du secteur.
L’adoption mondiale des modèles chinois s’accélère
Le lancement de Qwen3-Omni-Flash s’inscrit dans une tendance plus large de montée en puissance des modèles d’IA chinois sur la scène internationale. L’adoption mondiale des modèles d’IA open source chinois a presque triplé, passant de 13 % à environ 30 % de l’utilisation totale en 2025, sous l’impulsion de DeepSeek et de Qwen d’Alibaba.
Cette dynamique remet en question la domination historique des entreprises américaines dans le domaine de l’IA. Charlie Dai, vice-président et analyste principal chez Forrester, observe : « Techniquement, il n’y a pas de différence entre les modèles chinois et ceux du reste du monde. Que ce soit la série GPT, Llama, Mistral ou Qwen d’Alibaba, les dirigeants d’entreprise doivent s’assurer de la mise en place de garde-fous pour la sécurité, la confidentialité et la conformité réglementaire. »
Le support multi-modèle restera un axe central du développement des modèles et des domaines techniques associés, de l’infrastructure de données aux applications d’IA agentique, au cours des 12 prochains mois. L’écosystème peut s’attendre à de nouvelles annonces majeures de la part des principaux fournisseurs à travers le monde.
Pour l’Europe, confrontée à des difficultés pour rivaliser en termes d’investissements et de puissance de calcul, l’approche d’Alibaba pourrait offrir de nouvelles perspectives. Des entreprises européennes de premier plan comme la française Mistral et l’allemande Aleph Alpha pourraient gagner du terrain dans la course à l’IA en s’appuyant sur ces technologies open source performantes.
Qwen3-Omni-Flash représente ainsi bien plus qu’une simple mise à jour technique : c’est un signal fort de la capacité de la Chine à rivaliser avec les géants américains sur le terrain de l’innovation en IA, tout en proposant un modèle plus ouvert et accessible qui pourrait redéfinir les règles du jeu dans l’industrie de l’intelligence artificielle multimodale.
GitHub Qwen, Alibaba Cloud Community, VentureBeat, Computerworld

