IT之家 7 月 11 日消息,騰訊官方今日宣布,騰訊 AI 登頂國際麻將平臺,在日本麻將天鳳平臺特上房達到穩定段位 10.68 段,刷新了 AI 在麻將領(lǐng)域取得的最好成績(jì)。
▲ 圖源騰訊,下同
據騰訊官方介紹,騰訊 AI 絕藝 LuckyJ 之所以去日本打比賽,是因為“天鳳”是知名的日本麻將競技平臺,擁有較為體系化的競技規則和專(zhuān)業(yè)段位規則,受到“職業(yè)麻將屆的廣泛認可”,全世界的麻將 AI 基本都在這里進(jìn)行訓練和打段。
天鳳平臺按照 1 段 — 11 段來(lái)進(jìn)行排位,其中 7 段以上 3037 人,約占百分之一,而能達到 10 段的只有 27 人(含 AI),只占不到萬(wàn)分之一,相當于王者榮耀里的榮耀王者段位。
IT之家從騰訊官方了解到,目前排名前三的麻將 AI 分別為絕藝 LuckyJ、Suphx 以及 NAGA。絕藝 LuckyJ 花了一千多局就達到了 10 段,在特上房所有對戰數超過(guò) 1000 把的注冊玩家,穩定段位歷史排名第一。
值得一提的是,絕藝 LuckyJ 不僅達到日本麻將天鳳十段,之前還在國標麻將線(xiàn)下邀請賽中戰勝了 6 位國標麻將職業(yè)選手,成為首個(gè)戰勝?lài)鴺寺閷㈨敿饴殬I(yè)選手的麻將 AI。
為了達到理想效果,騰訊 AI 采用了一種新型策略?xún)?yōu)化算法 ACH(actor critic hedge),基于“強化學(xué)習和遺憾值最小化”的自我博弈技術(shù),使得 AI 能從零開(kāi)始“自我學(xué)習和提高”,并最終收斂到一個(gè)最強的混合策略。同時(shí)該公司基于“樂(lè )觀(guān)價(jià)值估計的思想”,提出了一種高效的“非完美搜索方法”,使深度強化學(xué)習結合非完美信息搜索成為可能。
騰訊稱(chēng),訓練麻將 AI,其實(shí)就是在訓練 AI 更好地去認識人類(lèi)的世界。最終讓 AI 能早日走進(jìn)那些人類(lèi)生活中,比如金融交易、自動(dòng)駕駛、交通物流、拍賣(mài)系統等,解決真實(shí)世界的復雜問(wèn)題。