近日,中國電信人工智能研究院(TeleAI)“復雜推理大模型”TeleAI-t1-preview正式發(fā)布。TeleAI-t1-preview使用了強化學(xué)習訓練方法,通過(guò)引入探索、反思等思考范式,大幅提升模型在數學(xué)推導、邏輯推理等復雜問(wèn)題的準確性。在美國數學(xué)競賽AIME 2024、MATH500兩項權威數學(xué)基準評測中,TeleAI-t1-preview分別以60和93.8分的成績(jì),大幅超越OpenAI o1-preview、GPT-4o等標桿模型。在研究生級別問(wèn)答測試GPQA Diamond中,TeleAI-t1-preview得分超過(guò) GPT-4o,并比肩Claude 3.5 Sonnet的性能水準。
以2024年全國高中數學(xué)競賽試題為例,TeleAI-t1-preview面對三角函數的復雜等式關(guān)系,通過(guò)多次假設嘗試和思路糾偏,將原先的復雜等式抽絲剝繭,轉化成簡(jiǎn)化的方程式,并經(jīng)過(guò)邏輯清晰的公式推導后,最終給出了正確答案。
TeleAI-t1-preview在回答問(wèn)題時(shí)并非只是給出結論,而是把思考和分析過(guò)程也完整呈現。這樣可以幫助學(xué)生在做題過(guò)程中深入理解題目背后的邏輯和思考方法。
在一道概率論考研試題中,題目涉及“泊松分布”概念。TeleAI-t1-preview首先對這個(gè)概念進(jìn)行了介紹和解讀,然后給出解題思路和最終答案。
我國古代數學(xué)發(fā)展歷史悠久,流傳眾多經(jīng)典著(zhù)作,但因其文言文表述,通常讓人望而卻步。不少大模型也會(huì )陷入沉思,無(wú)法作答。將《九章算術(shù)》中的一道題目給到 TeleAI-t1-preview后,它先針對文言文進(jìn)行了理解和簡(jiǎn)化,轉換成現代漢語(yǔ),隨之給出數學(xué)推導和答案。
在過(guò)程中,TeleAI-t1-preview還將形象思維與抽象思維結合,對所涉及的場(chǎng)景進(jìn)行具象化思考,輔助理解題目。同時(shí),它還嚴謹地進(jìn)行了古今單位換算,順利過(guò)關(guān)。
如果說(shuō)數學(xué)競賽和考研題目還能符合人的正常思維方式,那么面對極度“燒腦”的策略推理問(wèn)題時(shí),以往的大模型往往會(huì )答非所問(wèn),被繞到“陷阱”中去。TeleAI-t1-preview能夠迅速理解游戲規則并完成破題。
TeleAI-t1-preview在解題過(guò)程中,列出了對游戲規則的理解、場(chǎng)景道具分析、優(yōu)劣勢分析,并給出解題策略、驗證有效性。不僅如此,它還考慮到了可能出現的特殊情況。
針對 TeleAI-t1-preview訓練的不同階段,TeleAI引入了創(chuàng )新的訓練策略,從而保障思考推理過(guò)程準確有效。
數據準備階段:收集、構建了一個(gè)以數學(xué)為核心、多學(xué)科為補充的高質(zhì)量推理數據集,確保模型能夠適應不同類(lèi)型的推理任務(wù)。
Judge Model(評估模型):訓練了一個(gè)Judge Model專(zhuān)門(mén)用于分析和評估模型長(cháng)思考鏈路的正確性,為模型的反思和錯誤修正提供指導。
SFT(監督微調)階段:用MCTS(蒙特卡洛樹(shù)搜索)構造高質(zhì)量長(cháng)推理數據,結合每個(gè)步驟的準確率和解決方案長(cháng)度來(lái)選擇最優(yōu)的完整路徑,在保證推理答案準確性的同時(shí)有效拉長(cháng)思考鏈路以獲得更細粒度的推理過(guò)程。同時(shí)使用 Judge Model對推理過(guò)程中正確率較低的路徑進(jìn)行分析,引導模型對錯誤的推理步驟進(jìn)行反思和修正,從而構造出高質(zhì)量的思維鏈數據進(jìn)行SFT訓練。
強化學(xué)習階段:額外構造了Rule-based Reward Model(基于規則的獎勵模型),以提供足夠準確的獎勵信號,通過(guò)在線(xiàn)強化學(xué)習算法進(jìn)一步提升模型的邏輯推理能力。
直觀(guān)呈現的思維鏈將幫助人們更清晰地追蹤推理過(guò)程,方便驗證推理正確性,從而使模型的可解釋性和透明度大大提升。
TeleAI將持續在推理模型領(lǐng)域研究探索,讓人工智能基于人類(lèi)的“已知”,推導出期盼得到的“未知”。