當(dāng)前位置：首頁 > 科技 > IT業(yè)界 > 正文

品牌
標(biāo)簽
企業(yè)會(huì)員

陳天橋“發(fā)現(xiàn)式智能”落地！MiroThinker 1.5 發(fā)布，開啟通用人工智能新賽道

2026-01-06 13:29 來源：互聯(lián)網(wǎng) 我來投稿撤稿糾錯(cuò)

憑借成功預(yù)測 Polymarket 題目，連續(xù)登頂 Future X 全球榜首的 MiroMind 團(tuán)隊(duì)，于今日（1 月 5 日）正式發(fā)布其自研旗艦搜索智能體模型 MiroThinker 1.5。

MiroMind 由全球知名創(chuàng)新企業(yè)家、慈善家陳天橋，與清華大學(xué)知名 AI 青年學(xué)者代季峰教授聯(lián)合發(fā)起。去年陳天橋提出發(fā)現(xiàn)式智能才是真正意義上的通用人工智能這一重磅創(chuàng)新理念，引發(fā)全球業(yè)內(nèi)人士關(guān)注。他同時(shí)提出建設(shè)發(fā)現(xiàn)式智能的 5 種關(guān)鍵能力，其中一項(xiàng)能力是在未知條件下重建對(duì)世界的理解，這正是 MiroMind 的使命。

在過去 7 個(gè)月里，當(dāng)全行業(yè)都在「卷」參數(shù)規(guī)模、「卷」百萬長文本的紅海時(shí)，MiroMind 卻在思考一個(gè)更本質(zhì)的問題：智能的「奇點(diǎn)」究竟在哪里？他們給出的答案不是「把世界背進(jìn)參數(shù)里」，而是押注「發(fā)現(xiàn)式智能」：真正的智能不靠全知，而靠會(huì)研究、會(huì)查證、會(huì)修正 —— 像頂級(jí)情報(bào)官一樣對(duì)外極速取證、對(duì)內(nèi)嚴(yán)苛去偽存真；像嚴(yán)謹(jǐn)研究員一樣在不確定性里逼近真相，最終把「預(yù)測未來」從特權(quán)變成能力。

MiroThinker 1.5 性能評(píng)測

MiroMind 團(tuán)隊(duì)在 AGI 競技場上，不信奉 “大力出奇跡”，而是追求以高智效比為核心的「巧勁」。

MiroThinker-v1.5-30B 僅用 1/30 的參數(shù)規(guī)模跑出了比肩眾多 1T 模型的性能表現(xiàn)，其 235B 的版本在多個(gè)搜索智能體基準(zhǔn)測試中躋身全球第一梯隊(duì)。

實(shí)力霸榜：指標(biāo)是門檻，預(yù)測是天花板

BrowseComp 性能對(duì)比

Agent 搜索評(píng)測基準(zhǔn)性能對(duì)比

越級(jí)挑戰(zhàn)：MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面對(duì)參數(shù)量高達(dá) 30 倍的萬億參數(shù)巨獸 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用極低的成本展示了旗鼓相當(dāng)?shù)谋憩F(xiàn)：

推理成本： MiroThinker-v1.5-30B 單條調(diào)用成本低至 $0.07，僅為 Kimi-K2-Thinking 的 1/20，且推理更快。

性能表現(xiàn)：在關(guān)鍵評(píng)測集 BrowseComp-ZH 中實(shí)現(xiàn)性能超越，證明「大」不等于「強(qiáng)」。

核心洞察：從「做題家模式」轉(zhuǎn)向「科學(xué)家模式」

MiroMind 團(tuán)隊(duì)指出，以擴(kuò)大模型內(nèi)部參數(shù)量（Internal Parameters）為核心的傳統(tǒng) Scaling Law 已明顯觸及邊際瓶頸；要繼續(xù)提升模型性能，必須從「內(nèi)部參數(shù)擴(kuò)張」轉(zhuǎn)向以「外部信息交互」（External Interaction）為核心的 Interactive Scaling，將智能的增長空間從內(nèi)部參數(shù)擴(kuò)展到外部世界。

為什么該模型能在大幅降低成本的同時(shí)，性能依然能打？

因?yàn)檫@不是「大參數(shù)碾壓」，而是一次「科學(xué)家模式」對(duì)「做題家模式」的勝利。以 Scaling Law 為代表的路線，更像「做題家」：試圖把全人類知識(shí)（也包括噪聲與錯(cuò)誤）盡可能背進(jìn)模型里；一旦遇到生物學(xué)等領(lǐng)域的未知問題，就容易基于概率分布「編」出一個(gè)看似合理的答案 —— 幻覺往往由此產(chǎn)生。

在 MiroThinker 1.0 中，MiroMind 團(tuán)隊(duì)首次系統(tǒng)性提出 Interactive Scaling：隨著工具交互頻率與深度提升，研究式推理能力也穩(wěn)定增強(qiáng) —— 這構(gòu)成了與模型大小、上下文長度并列的第三個(gè)可擴(kuò)展維度。v1.5 更進(jìn)一步，把這套機(jī)制內(nèi)化為貫穿訓(xùn)練與推理全流程的核心能力：將模型訓(xùn)練成「科學(xué)家」，核心不是死記硬背，而是勤查證。遇到難題時(shí)，它不會(huì)給出概率最高的瞎猜，而是執(zhí)行慢思考的研究閉環(huán)：提出假設(shè) → 向外部世界查數(shù)據(jù) / 取證 → 發(fā)現(xiàn)對(duì)不上 → 修正假設(shè) → 再查證，直到證據(jù)收斂。

主流大模型往往盲目追求萬億參數(shù)，試圖把整個(gè)互聯(lián)網(wǎng)「背」在腦子里。而 MiroThinker 系列選擇了一條反共識(shí)的路線：刻意將模型控制在 30B–200B 的輕量級(jí)規(guī)模。MiroMind 團(tuán)隊(duì)強(qiáng)調(diào)，省下的不是算力，而是把算力花在了更刀刃的地方 —— 對(duì)外的信息獲取與交互。

MiroMind 團(tuán)隊(duì)不追求讓模型擁有一顆「最重的腦子」，而是培養(yǎng)它擁有一雙「最勤的手」。當(dāng)模型同時(shí)具備研究式確認(rèn)機(jī)制與時(shí)序因果約束，這種圍繞外部信息獲取的交互過程才讓「發(fā)現(xiàn)式智能」真正落地 —— 也正是對(duì) Interactive Scaling 的深耕，使他們用小得多的模型，做到了大模型才能做到的事。

MiroThinker 1.5 核心技術(shù)揭秘

傳統(tǒng)的模型思維鏈本質(zhì)上是在模型內(nèi)部知識(shí)空間的線性外推，推理偏差會(huì)隨路徑增長而不斷累積，最終導(dǎo)致邏輯坍塌。

MiroThinker 1.5 的核心發(fā)力點(diǎn)，在于通過 Interactive Scaling 打破孤立推理的僵局，將「推理」與「外部環(huán)境」深度耦合。通過構(gòu)建「推理 - 驗(yàn)證 - 修正」循環(huán)，引入外部信息作為校驗(yàn)錨點(diǎn)，用確定性的證據(jù)流來對(duì)沖不確定性的推演，解決邏輯坍塌問題。

Training-time Interactive Scaling 技術(shù)

當(dāng)智能的 Scaling 范式不再局限于模型內(nèi)部龐大的世界知識(shí)儲(chǔ)備與縝密的長程邏輯推理，而是依托模型高頻與外部世界中探索與交互并獲得閉環(huán)反饋時(shí)，小而高效的探索者模型能展現(xiàn)比肩于甚至超出大而嚴(yán)謹(jǐn)?shù)乃伎颊吣Ｐ偷闹橇λ健?/p>

MiroThinker 1.5 正是基于這一判斷，將 Interactive Scaling 從推理階段的外掛能力，前移并內(nèi)化為訓(xùn)練階段的核心機(jī)制。模型并非被要求「盡量在腦中想清楚一切」，而是被系統(tǒng)性地訓(xùn)練成一個(gè)善于向外求證、敢于否定自己、能夠快速修正路徑的 Agent。

在訓(xùn)練過程中，MiroMind 團(tuán)隊(duì)刻意削弱對(duì)「單次完美推理」的獎(jiǎng)勵(lì)，轉(zhuǎn)而強(qiáng)化以下行為模式：

Evidence-Seeking（主動(dòng)求證）：模型被鼓勵(lì)將每一個(gè)關(guān)鍵判斷拆解為可驗(yàn)證的子假設(shè)，并主動(dòng)發(fā)起對(duì)外查詢、檢索與比對(duì)。結(jié)論本身不再是訓(xùn)練目標(biāo)，找到可靠證據(jù)的過程才是。缺乏信源支撐的高置信輸出，會(huì)在訓(xùn)練中被系統(tǒng)性地懲罰。

Iterative Verification（多輪校驗(yàn)與自我修正）：推理不被視為一次性路徑，而是一個(gè)可反復(fù)回溯、修正的過程。模型在交互中被要求不斷對(duì)已有判斷進(jìn)行反證測試，一旦發(fā)現(xiàn)證據(jù)沖突，必須顯式調(diào)整假設(shè)，而非「帶著錯(cuò)誤繼續(xù)推下去」。

Anti-Hallucination（對(duì)捷徑的系統(tǒng)性過濾）：對(duì)那些「看起來合理、但缺乏真實(shí)依據(jù)」的推理捷徑保持零容忍。訓(xùn)練中不僅評(píng)估答案是否正確，更關(guān)注答案是如何得到的：任何依賴統(tǒng)計(jì)相關(guān)性、模式記憶或隱含先驗(yàn)而繞過證據(jù)驗(yàn)證的路徑，都會(huì)被標(biāo)記為低質(zhì)量推理。

通過這種訓(xùn)練方式，MiroThinker 1.5 逐步形成了一種「本能反應(yīng)」：在不確定性面前，先交互、再判斷；在高風(fēng)險(xiǎn)結(jié)論前，先查證、再收斂。這使得模型不再需要將龐大的世界知識(shí)全部內(nèi)化為參數(shù)，而是學(xué)會(huì)在需要時(shí)，快速、精準(zhǔn)地向外部世界「借力」。

最終，團(tuán)隊(duì)用更小的參數(shù)規(guī)模，換來了更高的智能密度：不是讓模型記住更多，而是讓它學(xué)會(huì)如何找到、驗(yàn)證并使用信息。這正是 MiroThinker 1.5 能在顯著降低推理成本的同時(shí)，依然保持一線性能的根本原因。

時(shí)序敏感訓(xùn)練沙盒

時(shí)序敏感訓(xùn)練沙盒，是破解「因果律」的鑰匙：普通大模型訓(xùn)練常處在「上帝視角」—— 它在數(shù)據(jù)里早已「見過結(jié)果」，學(xué)到的往往是復(fù)述與「劇透」，而不是預(yù)測。MiroThinker 的訓(xùn)練則約束模型「只能看過去，不能看未來」，在嚴(yán)格的時(shí)間可見性約束下做判斷、再用同樣受時(shí)序約束的證據(jù)去驗(yàn)證與更新。

可控?cái)?shù)據(jù)合成引擎：構(gòu)建覆蓋多任務(wù)類型的、難度與時(shí)間戳可控的數(shù)據(jù)合成體系。每一道題目的「正確答案」并非靜態(tài)標(biāo)簽，而是隨時(shí)間戳動(dòng)態(tài)演化；模型必須在嚴(yán)格的信息可見性約束下，基于當(dāng)時(shí)可獲取的信息做出判斷，而校驗(yàn)過程同樣顯式引入時(shí)間戳約束，以確保推演與評(píng)分均符合真實(shí)世界的時(shí)序邏輯。

時(shí)序敏感訓(xùn)練機(jī)制：采用嚴(yán)格的時(shí)間戳與信息可見性約束，徹底杜絕 Future Leakage；模型在訓(xùn)練過程中的每一步只能與發(fā)表于當(dāng)前時(shí)間戳之前的信息進(jìn)行交互。

在這種訓(xùn)練范式下，模型被迫學(xué)會(huì)在信息不完備、噪聲存在、信號(hào)延遲的真實(shí)條件下進(jìn)行推演與修正，而不是依賴靜態(tài)數(shù)據(jù)集中的「標(biāo)準(zhǔn)答案」。時(shí)間由此從一個(gè)背景變量，轉(zhuǎn)變?yōu)樗茉炷Ｐ托袨榕c推理方式的核心約束，使模型更接近真實(shí)世界中的認(rèn)知與決策過程。

樣例展示

Case 1: A 股漲停板預(yù)測

據(jù)介紹，這不是「玄學(xué)」，更不是事后諸葛亮 —— 而是在信息極度噪聲化、情緒快速切換的盤面里，用開放世界證據(jù) + 因果推斷去賭「次日正確答案」。（注：以下僅為技術(shù)展示，不構(gòu)成投資建議）

12 月 10 日（周三）：