Veille IA chinoise — 28 juin 2026

TL;DR

Alibaba lance Qwen-AgentWorld (24 juin) : premier « modèle de monde langagier » (Language World Model) natif. Deux tailles ouvertes (35B-A3B et 397B-A17B), un seul modèle couvrant 7 environnements d’agent (MCP, Search, Terminal, SWE + Web, OS, Android). Sur son benchmark maison AgentWorldBench, la version 397B devance GPT-5.4.
ByteDance dévoile Doubao 2.1 (23 juin, conférence FORCE) : la version Pro revendique un saut en codage, agents et VLM (supérieure à Claude Opus 4.6 sur plusieurs évaluations), avec un prix ~80 % inférieur. Volcano Engine annonce 180 000 Mds de tokens/jour et 49,5 % du marché chinois MaaS (IDC).
Baidu ouvre Unlimited OCR (22-23 juin) : modèle de lecture de documents end-to-end (3B params, ~570M actifs) dérivé de DeepSeek-OCR. Le mécanisme R-SWA fige le KV cache à une constante → des dizaines de pages lues en une passe. n°1 sur OmniDocBench (~93,9 %).
Baichuan-M4 domine les classements médicaux : développé avec Tsinghua, il se hisse en tête de HealthBench, HealthBench Hard et Professional (score composite 68,6), avec un taux d’hallucination factuelle ramené à 3,3 %.
DeepSeek V4.1 : toujours pas officiellement publié au 28 juin, malgré l’annonce d’une sortie « mi-juin ».

Actualités du jour

Alibaba lance Qwen-AgentWorld : le premier « modèle de monde langagier »

Acteur : Alibaba / Tongyi Qwen (通义千问) Apport clé : Premier modèle de monde (World Model) natif construit dans l’espace du langage. Contrairement à l’approche « entraîner un LLM généraliste puis l’adapter à l’environnement », Qwen-AgentWorld intègre la modélisation de l’environnement comme objectif d’entraînement dès le pré-entraînement continu (CPT → SFT → RL). Entraîné sur 10 M+ trajectoires d’interaction issues d’environnements réels. Type de source : préprint arXiv (même jour) + reprises techniques chinoises Benchmark vérifié : non — scores auto-déclarés sur un benchmark maison (AgentWorldBench).

Deux tailles, toutes deux ouvertes sur Hugging Face et ModelScope : 35B-A3B et 397B-A17B. Un même modèle couvre sept domaines d’interaction — textuels (MCP, Search, Terminal, SWE) et GUI (Web, OS, Android). Particularité : les observations GUI sont représentées sous forme de code rendu (et non de pixels), ce qui permet à un modèle purement textuel de couvrir des environnements visuels et d’opérer du transfert inter-domaines (ex. transposer l’expérience de navigation web vers l’opération mobile).

Le benchmark associé, AgentWorldBench, fournit des observations ground-truth exécutées en environnement réel. La version 397B-A17B obtient une moyenne de 58,71, devançant GPT-5.4 (58,25), avec un avantage marqué sur Terminal et SWE ; l’entraînement en trois phases fait gagner 8,66 points à la version 35B. Positionnement affiché : non pas remplacer l’environnement réel, mais offrir un simulateur découplé, scalable et contrôlable pour l’apprentissage par renforcement d’agents — une piste « prédire puis agir » pour les agents généralistes.

SegmentFault — 阿里通义千问发布首个原生语言世界模型 Qwen-AgentWorld — SegmentFault, 24 juin 2026

ByteDance dévoile Doubao 2.1 à la conférence FORCE

Acteur : ByteDance / Volcano Engine (火山引擎) — Doubao (豆包) Apport clé : Nouvelle génération du modèle Doubao, présentée le 23 juin à la conférence d’été FORCE 原动力 (Pékin). Doubao 2.1 Pro revendique un saut de capacités sur trois axes — codage, agents et VLM (vision-langage) — et dépasse Claude Opus 4.6 sur plusieurs évaluations, « franchissant le point de bascule vers le niveau production ». Type de source : annonce officielle Volcano Engine + presse (新华网, 光明网, 腾讯新闻, IT之家) Benchmark vérifié : non — comparaisons à Opus 4.6 auto-déclarées par le labo.

Tarification agressive : Doubao 2.1 Pro à 6 CNY / 1M tokens en entrée et 30 CNY en sortie (1,2 CNY en cache hit), soit un coût global ~80 % inférieur à Claude Opus 4.6 ; la variante Doubao 2.1 Turbo, pour les usages à haute fréquence, descend à la moitié du prix du Pro. ByteDance a aussi présenté le modèle vidéo Seedance 2.5 (génération 4K native jusqu’à 30 s, lancement prévu en juillet), le modèle image Seedream 5.0 Pro et le modèle audio Seed-Audio 1.0, ainsi qu’une « version professionnelle » de l’app Doubao (mode tâches bureautiques, pilotage de l’ordinateur local, compétences, tâches planifiées).

Côté traction : Volcano Engine annonce un volume d’appels dépassant 180 000 milliards de tokens/jour et, selon IDC, 49,5 % du marché chinois du MaaS en cloud public (n°1).

新华网 — 豆包2.1 Pro模型发布，Coding与Agent能力跨越”质变点” — 新华网, 23 juin 2026 光明网 — 豆包大模型2.1发布跨越生产级质变点 — 光明网, 23 juin 2026 腾讯新闻 — 火山引擎发布豆包2.1 Pro，Seedance 2.5首次亮相 — 腾讯新闻, 24 juin 2026

Baidu ouvre Unlimited OCR : lire un livre entier en une passe

Acteur : Baidu (百度) Apport clé : Modèle de lecture de documents end-to-end, open source, dérivé de DeepSeek-OCR. 3B de paramètres totaux, ~570M actifs. Innovation centrale : le mécanisme R-SWA (Reference Sliding Window Attention) qui fige le KV cache du décodeur à une constante au lieu d’une croissance linéaire — permettant de transcrire des dizaines de pages en une seule passe avant, sans ralentissement à mesure que la génération s’allonge. Type de source : dépôt officiel (GitHub / Hugging Face) + IT之家 + 新浪科技 Benchmark vérifié : partiellement — score auto-déclaré mais reproductible via les poids ouverts.

Sur le benchmark tiers OmniDocBench, Unlimited OCR atteint ~93,9 % et se classe n°1 des modèles end-to-end. La vitesse d’inférence progresse de ~12,7 % par rapport à DeepSeek-OCR, l’écart se creusant (~35 %) sur les sorties longues (6 000 tokens). Code et poids sont entièrement ouverts. La presse note que l’auteur principal serait un ancien chercheur de DeepSeek.

IT之家 — 百度开源 Unlimited OCR 模型：基于 DeepSeek OCR — IT之家, 23 juin 2026 新浪科技 — 一次吃下一本书！百度开源新OCR — 新浪科技, 23 juin 2026

Baichuan-M4 : un modèle médical en tête de HealthBench

Acteur : Baichuan (百川智能) + université Tsinghua (清华大学) Apport clé : Modèle « renforcé médical » qui se hisse simultanément en tête de trois classements — HealthBench, HealthBench Hard et HealthBench Professional — avec un score composite de 68,6 (plus de 10 points devant GPT-5.5 selon le labo). Taux d’hallucination factuelle ramené à 3,3 % via un algorithme de RL « à perception de la factualité ». Type de source : annonce officielle Baichuan + presse (新浪科技, 腾讯新闻, 北京商报) Benchmark vérifié : non — benchmark HealthBench exécuté et reporté par le labo (auto-déclaré).

Quatre capacités cœur revendiquées : interrogatoire approfondi, mémoire sur l’ensemble du parcours de soin, ancrage des preuves (evidence anchoring) et orchestration d’agents. Sur la mémoire clinique en contexte long, le labo annonce 86,9 ; sur la précision des citations probantes, 90,0. À noter sur la chronologie : le modèle a été annoncé le 26 mai, ses résultats HealthBench étant officialisés autour du 22 juin — il n’avait pas été couvert dans les rapports précédents.

新浪科技 — 百川发布新一代医疗增强大模型 M4：登顶 HealthBench — 新浪科技, 22 juin 2026 北京商报 — Baichuan-M4 三大医疗榜单同时登顶 — 北京商报, 26 mai 2026

En bref

DeepSeek V4.1 toujours en attente : au 28 juin, le modèle n’est officiellement pas publié. La fiche DataLearner (mise à jour le 15 juin) confirme qu’il reste à l’état de rumeur, sur la base de reprises évoquant une sortie « mi-juin » (MCP natif, entrées image/audio). Source : DataLearner.
Zhipu envisagerait un placement d’actions H : après le franchissement des 1 000 Mds HKD (rapport du 22 juin), le labo étudierait une levée de plusieurs milliards de dollars à Hong Kong, en parallèle d’un projet de cotation A-shares au STAR Market. Source : 魔珐星云 (CSDN) — 全球AI前沿动态, 25 juin 2026.
Vague de recherche open source (relayée le 25 juin) : Tsinghua présente Spatial-TTT (2B params, compréhension de vidéo en flux jusqu’à 120 min, retenu à ECCV 2026) et le socle « 一念 UnisonMind » pilotant plusieurs robots ; Kuaishou + UCAS publient GoLongRL, un cadre de RL contexte long où un modèle 30B dépasse des modèles à 100B+ sur plusieurs benchmarks. Source : 魔珐星云 (CSDN), 25 juin 2026.
À surveiller : la 2026 中国AI智能体大会 (conférence chinoise sur les agents IA) se tient les 2-3 juillet à Hangzhou — efficacité des tokens, agents auto-évolutifs et modèles de monde au programme.

Tableau récapitulatif

Actu	Acteur	Apport clé	Licence / Score	Source (datée)
Qwen-AgentWorld	Alibaba (通义千问)	1er modèle de monde langagier, 7 environnements	Ouvert (HF/ModelScope) ; AgentWorldBench 58,71 (auto)	SegmentFault, 24 juin
Doubao 2.1 (Pro/Turbo)	ByteDance / Volcano Engine	Codage/agents/VLM ; -80 % de coût	Propriétaire ; > Opus 4.6 (auto)	新华网, 23 juin
Unlimited OCR	Baidu (百度)	Doc end-to-end, KV cache constant (R-SWA)	Open source ; OmniDocBench ~93,9 %	IT之家, 23 juin
Baichuan-M4	Baichuan + Tsinghua	Médical : top HealthBench, hallu. 3,3 %	Composite 68,6 (auto)	新浪科技, 22 juin
DeepSeek V4.1	DeepSeek (深度求索)	Non publié au 28 juin (rumeur mi-juin)	—	DataLearner, 15 juin

Sources

SegmentFault — 阿里通义千问发布首个原生语言世界模型 Qwen-AgentWorld — SegmentFault — 24 juin 2026
新华网 — 豆包2.1 Pro模型发布 — 新华网 — 23 juin 2026
光明网 — 豆包大模型2.1发布跨越生产级质变点 — 光明网 — 23 juin 2026
腾讯新闻 — 火山引擎发布豆包2.1 Pro，Seedance 2.5首次亮相 — 腾讯新闻 — 24 juin 2026
IT之家 — 百度开源 Unlimited OCR 模型 — IT之家 — 23 juin 2026
新浪科技 — 一次吃下一本书！百度开源新OCR — 新浪科技 — 23 juin 2026
新浪科技 — 百川发布新一代医疗增强大模型 M4：登顶 HealthBench — 新浪科技 — 22 juin 2026
北京商报 — Baichuan-M4 三大医疗榜单同时登顶 — 北京商报 — 26 mai 2026
DataLearner — DeepSeek V4.1（fiche modèle） — DataLearner — maj 15 juin 2026
魔珐星云 (CSDN) — 2026年06月25日全球AI前沿动态 — CSDN / 魔珐星云 — 25 juin 2026