當(dāng)前位置: 首頁 > 體育 > 電競

    騰訊研發(fā)全新TiG框架:可用AI玩王者榮耀讓AI模型學(xué)會戰(zhàn)略性思考

    2025-10-04 21:12:32
    來源:
    電競資訊10月4日稱 據(jù) decoder 今天報道
    ,騰訊研究人員最近用《王者榮耀》游戲作為訓(xùn)練平臺
    ,探索如何讓AI在游戲中學(xué)會“戰(zhàn)略性思考”,研究全新 TiG(Think in Games)框架
    相關(guān)成果已發(fā)表于 Hugging Face 平臺和 arXiv 期刊

    研究團隊指出,目前的 AI 模型存在明顯的功能鴻溝

    ,以游戲為取向的 AI 能正常游玩但無法理解自己所做的決策
    而語言模型雖然可以推理策略
    但很難真正執(zhí)行操作,為此他們研發(fā)了全新 TiG 框架
    ,讓模型在游戲中同步思考
    、行動。

    undefined

    團隊選擇以《王者榮耀》游戲作為訓(xùn)練范本

    先使用匿名且標(biāo)準化的賽事數(shù)據(jù)定義推上路
    、擊殺暴君、守家等 40 種宏觀行動
    ,勝負回數(shù)均衡,AI 模型們必須要在每個定義好的場景下選擇最佳策略
    ,并解釋其戰(zhàn)略緣由

    undefined

    具體來說,訓(xùn)練分為兩個階段

    ,首先是在監(jiān)督中學(xué)習(xí)
    ,弄清楚這些策略的基本機制;隨后通過獎勵機制進行強化學(xué)習(xí)
    ,如果行動正確能得 1 分
    ,錯誤行動則得 0 分

    undefined

    隨后團隊測試了多種語言模型

    ,涵蓋 Qwen2.5(7B
    、14B、32B)
    、Qwen3-14B 模型
    ,并使用 DeepSeek-R1 大模型作為對照組;先從 DeepSeek-R1 提煉高質(zhì)量訓(xùn)練數(shù)據(jù)
    然后使用群體相對策略優(yōu)化(GRPO)技術(shù)
    比較不同策略之間的優(yōu)劣

    undefined

    最終經(jīng)過 TiG 框架訓(xùn)練的模型不僅能制定行動計劃

    還能解釋原因,例如 AI 會指出某個防御塔防守薄弱
    ,是理想的進攻目標(biāo)
    ,但需要注意埋伏的敵人。模型訓(xùn)練后仍保持原有的文本理解
    、數(shù)學(xué)推理與問答能力

    undefined

    最終測試結(jié)果如下:

    • 對照組 DeepSeek-R1:決策準確率達 86.67%

  1. Qwen3-14B:決策準確率達 90.91%
    ,超越 DeepSeek-R1
  2. Qwen2.5-32B :準確率從 66.67% 提升至 86.84%
  3. Qwen2.5-14B:準確率從 53.25% 提升至 83.12%
  4. 最新資訊
    最新錄像
    最新集錦
    熱詞推薦