AI 大模型的語(yǔ)言不平等:英語(yǔ)最便宜,其它語(yǔ)言要貴得多

業(yè)界
TIME
2023-07-31 08:40
IT之家
分享

  IT之家 7 月 31 日消息,用戶(hù)所使用的語(yǔ)言對于大型語(yǔ)言模型(LLM)的費用有很大的影響,可能造成英語(yǔ)使用者和其它語(yǔ)言使用者之間的人工智能鴻溝。最近的一項研究顯示,由于 OpenAI 等服務(wù)所采用的的服務(wù)器成本衡量和計費的方式,英語(yǔ)輸入和輸出的費用要比其他語(yǔ)言低得多,其中簡(jiǎn)體中文的費用大約是英語(yǔ)的兩倍,西班牙語(yǔ)是英語(yǔ)的 1.5 倍,而緬甸的撣語(yǔ)則是英語(yǔ)的 15 倍。

  IT之家注意到,推特用戶(hù) Dylan Patel(@dlan522p)分享了一張照片,展示了牛津大學(xué)進(jìn)行的一項研究,該研究發(fā)現,讓一個(gè) LLM 處理一句緬甸語(yǔ)句子需要 198 個(gè)詞元(tokens),而同樣的句子用英語(yǔ)寫(xiě)只需要 17 個(gè)詞元。詞元代表了通過(guò) API(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)訪(fǎng)問(wèn) LLM 所需的計算力成本,這意味著(zhù)緬甸語(yǔ)句子使用這種服務(wù)的成本比英語(yǔ)句子高出 11 倍。

  詞元化模型(即人工智能公司將用戶(hù)輸入轉換為計算成本的方式)意味著(zhù),除了英語(yǔ)之外的其他語(yǔ)言使用和訓練模型要貴得多。這是因為像中文這樣的語(yǔ)言有著(zhù)不同、更復雜的結構(無(wú)論是從語(yǔ)法還是字符數量上),導致它們需要更高的詞元化率。例如,根據 OpenAI 的 GPT3 分詞器 ,“你的愛(ài)意(your affection)”的詞元,在英語(yǔ)中只需要兩個(gè)詞元,但在簡(jiǎn)體中文中需要八個(gè)詞元。盡管簡(jiǎn)體中文文本只有 4 個(gè)字符(你的愛(ài)意),而英文有 14 個(gè)字符。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  7月28日,闊別已久的ChinaJoy在上海新國際博覽中心拉開(kāi)帷幕。作為當今全球數字娛樂(lè )領(lǐng)域最具知名度與影響力的年度盛會(huì )之一,ChinaJoy已陪伴中國數字娛樂(lè )產(chǎn)業(yè)走過(guò)了二十...
熱點(diǎn)
  2023 年 7 月 23 日是我國成功發(fā)射首個(gè)火星探測器天問(wèn)一號三周年的日子。在這三年里,天問(wèn)一號實(shí)現了工程和科學(xué)兩個(gè)領(lǐng)域的雙豐收,超額完成了既定任務(wù)?!  耙慌e三...
互聯(lián)網(wǎng)

相關(guān)推薦

1
3
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看