新突破!中國電信復現DeepSeek R1,探索行業(yè)大模型建設新路徑

業(yè)界
TIME
2025-02-19 16:55
C114通信網(wǎng)
分享

DeepSeek是由深度求索開(kāi)發(fā)的低成本、高性能開(kāi)源大語(yǔ)言模型,該模型通過(guò)強化學(xué)習與混合專(zhuān)家結構(MOE)的技術(shù)創(chuàng )新,以工程優(yōu)化突破硬件限制,實(shí)現了“算力需求下降但性能提升”的反共識路徑。開(kāi)源策略重塑了AI生態(tài),為全球開(kāi)發(fā)者提供普惠工具,標志著(zhù)從“算力堆砌”向“算法效率”的產(chǎn)業(yè)轉型。中國電信政企信息服務(wù)事業(yè)群DeepSeek攻堅團隊緊跟技術(shù)潮流,基于行業(yè)數據復現R1模型,提出行業(yè)大模型優(yōu)化的新思路。

  政企信息服務(wù)事業(yè)群DeepSeek攻堅團隊選取醫療行業(yè)數據作為實(shí)驗對象,基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B兩個(gè)開(kāi)源模型,對DeepSeek-R1相關(guān)技術(shù)的復現實(shí)驗,通過(guò)復現其強化學(xué)習(RL)訓練和基于R1的蒸餾模型監督微調(SFT)訓練過(guò)程,提高了政企醫療行業(yè)大模型的應用能力,使行業(yè)大模型的落地有了新思路。

本次實(shí)驗通過(guò)兩種建設路徑提升行業(yè)大模型的應用能力:

  在數據方面

  通過(guò)R1蒸餾模式提升行業(yè)數據質(zhì)量。在合成高質(zhì)量的行業(yè)數據的同時(shí)提升現有行業(yè)數據的質(zhì)量。

  在訓練方面

  借鑒DeepSeek的GRPO強化學(xué)習模式,提升行業(yè)大模型訓練效率和邏輯推理能力。讓模型更懂行業(yè)知識,更好地回答行業(yè)問(wèn)題。

實(shí)驗準備

  在數據準備階段,研究團隊通過(guò)DeepSeek-R1 API進(jìn)行知識蒸餾,對原本僅包含問(wèn)題和答案的醫療數據集進(jìn)行了優(yōu)化升級,生成了包含完整推理過(guò)程和最終答案的高質(zhì)量醫療推理數據集。一系列優(yōu)化顯著(zhù)提升了數據的邏輯性和質(zhì)量,為后續行業(yè)大模型的訓練與優(yōu)化提供了可靠保障。畢竟,高質(zhì)量的數據是提升大模型能力的關(guān)鍵所在。

  隨后,研究團隊分別對基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B兩個(gè)開(kāi)源模型進(jìn)行了SFT訓練,旨在驗證經(jīng)過(guò)R1蒸餾優(yōu)化的基模型相較于原始基模在能力上是否存在顯著(zhù)提升。

實(shí)驗分析

  在RL復現階段,研究團隊采用GRPO算法對兩個(gè)開(kāi)源模型進(jìn)行了訓練,并使用高質(zhì)量醫療推理數據集對其性能進(jìn)行了全面評估。實(shí)驗過(guò)程如下圖,可看到RL后的模型能快速掌握基本格式與逐步掌握嚴格格式規范。

  格式正確性獎勵

  該獎勵值從一開(kāi)始就在滿(mǎn)分附近波動(dòng),表明模型能夠快速學(xué)習到基本格式要求。

  嚴格格式獎勵

  該獎勵值在訓練初期顯著(zhù)上升,并最終趨于穩定,說(shuō)明模型逐步掌握了更嚴格的格式規范。

  實(shí)驗對比結果顯示,經(jīng)過(guò)微調的模型在回答通用問(wèn)題和專(zhuān)業(yè)問(wèn)題時(shí)均表現出顯著(zhù)提升。具體而言,模型不僅能夠提供更加準確和專(zhuān)業(yè)的答案,還引入了清晰的思考過(guò)程,使回答的邏輯性和可解釋性得到了增強。這種改進(jìn)不僅提升了模型的可信度,也使其在醫療領(lǐng)域的實(shí)際應用中更具實(shí)用價(jià)值。實(shí)驗結果表明,GRPO算法結合高質(zhì)量數據集的訓練策略,能夠有效提升模型在復雜場(chǎng)景下的表現。

  微調前模型回復:

  微調后模型回復:

  緊接著(zhù),研究團隊對行業(yè)蒸餾數據的微調過(guò)程進(jìn)行了復現實(shí)驗,重點(diǎn)驗證了高質(zhì)量推理行業(yè)數據對模型性能的提升效果。實(shí)驗發(fā)現,經(jīng)過(guò)高質(zhì)量推理行業(yè)數據微調的模型在回答專(zhuān)業(yè)領(lǐng)域問(wèn)題時(shí)表現顯著(zhù)優(yōu)于未微調的模型,其答案的準確性和專(zhuān)業(yè)性均有明顯提升。實(shí)驗過(guò)程可以看到,加入instruction的模型(實(shí)驗2)對比沒(méi)有加入instruction的模型(實(shí)驗1)收斂速度略快、波動(dòng)略小。

  此外,微調后的模型能夠更穩定地輸出帶有完整思考過(guò)程的答案,包括清晰的推理步驟和邏輯鏈條,這不僅增強了答案的可信度,也提高了模型在實(shí)際應用中的實(shí)用性。對比結果如下:

  微調前模型回復:

微調后模型回復:

  模型評價(jià)

  政企醫療行業(yè)大模型是基于Qwen-2.5 14B基模進(jìn)行微調訓練而產(chǎn)生的行業(yè)大模型,是專(zhuān)業(yè)的醫療垂直領(lǐng)域的大模型。其中V1是使用DeepSeek蒸餾前,V2是基于DeepSeek構造數據進(jìn)行微調和強化學(xué)習的版本,各個(gè)大模型在最專(zhuān)業(yè)的醫療大模型評測榜單之一——MedBench上的評分如下圖。

DeepSeek、行業(yè)大模型、Qwen能力對比

  可以看出,經(jīng)過(guò)DeepSeek蒸餾的醫療行業(yè)大模型(V2)的綜合評分最高。

實(shí)驗總結

  本次實(shí)驗驗證了DeepSeek相關(guān)技術(shù)在行業(yè)大模型優(yōu)化中的普適性和有效性,為行業(yè)大模型的性能提升提供了新的技術(shù)范式。通過(guò)將R1模型的蒸餾技術(shù)和強化學(xué)習機制深度融合到行業(yè)大模型的訓練框架中,能夠顯著(zhù)提升模型在垂直領(lǐng)域的知識理解、推理能力和場(chǎng)景適應性。這一技術(shù)方案不僅解決了行業(yè)大模型訓練中面臨的數據專(zhuān)業(yè)性、領(lǐng)域知識融合和應用可靠性等核心問(wèn)題,還為行業(yè)大模型的優(yōu)化提供了可復制的技術(shù)路徑。

  實(shí)驗結果表明,采用該方案的行業(yè)大模型在領(lǐng)域知識問(wèn)答、專(zhuān)業(yè)文本理解和復雜決策支持等任務(wù)上均實(shí)現了性能的顯著(zhù)提升,為構建行業(yè)大模型和各行業(yè)大模型的迭代升級提供了重要的技術(shù)支持和實(shí)踐經(jīng)驗參考。這一成果標志著(zhù)行業(yè)大模型的優(yōu)化邁入了新的階段,為垂直領(lǐng)域智能化轉型提供了強有力的技術(shù)支撐。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  2月14日,舟山市科協(xié)黨組書(shū)記、主席陳文斌,副主席趙峰一行赴浙江省造船工程學(xué)會(huì ),對接落實(shí)舟山院士之家服務(wù)創(chuàng )新浙江發(fā)展專(zhuān)項行動(dòng)工作。浙江省造船工程學(xué)會(huì )理事長(cháng)鄭惠明...
業(yè)界
  近日,汽車(chē)媒體carscoops發(fā)布博文報道稱(chēng),一輛高度偽裝的法拉利電動(dòng)汽車(chē)原型車(chē)現身歐洲Ionity充電站?。該原型車(chē)基于現有車(chē)型Levante或Purosangue的底盤(pán)改造,暗示最終...
新能源

相關(guān)推薦

1
3
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看