隨著(zhù)人工智能技術(shù)的飛速發(fā)展,大模型在各個(gè)領(lǐng)域展現出強大的能力。其中,可操控終端設備的大模型更是為RPA(機器人流程自動(dòng)化)行業(yè)帶來(lái)了革命性的變化。本文將介紹Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架三種可操控終端設備的大模型,并探討其對傳統RPA行業(yè)的影響以及未來(lái)發(fā)展趨勢。
引言
RPA(機器人流程自動(dòng)化)作為一種通過(guò)模擬人類(lèi)前臺操作來(lái)執行重復性任務(wù)的技術(shù),近年來(lái)在各個(gè)行業(yè)得到廣泛應用。然而,傳統的RPA技術(shù)難以適應復雜場(chǎng)景。隨著(zhù)可操控終端設備的大模型的出現,傳統RPA行業(yè)將會(huì )收到新技術(shù)的沖擊。
在電影《鋼鐵俠》中,我們看到了一個(gè)令人印象深刻的智能助手——賈維斯,它是一個(gè)能夠理解自然語(yǔ)言、執行復雜任務(wù)的人工智能系統,它不僅能夠控制鋼鐵俠的裝備,還能夠進(jìn)行信息檢索、數據分析、輔助決策等。
如今,隨著(zhù)可操控終端設備的大模型的出現,“賈維斯”式的智能助手已經(jīng)不再是遙不可及的夢(mèng)想。Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架等大模型,已經(jīng)具備了部分類(lèi)似“賈維斯”的功能。它們能夠理解用戶(hù)的自然語(yǔ)言指令,并執行相應的操作。這些大模型的出現,標志著(zhù)人工智能技術(shù)正在從簡(jiǎn)單的自動(dòng)化工具向智能化的助手轉變。
本文將介紹Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架三種可操控終端設備的大模型,并探討其對RPA行業(yè)的影響以及未來(lái)發(fā)展趨勢。
可操控終端設備的大模型
Claude 3.5 Sonnet
Anthropic的Claude 3.5 Sonnet是一個(gè)基于Transformer架構的預訓練語(yǔ)言模型,擁有1750億參數。其具備強大的自然語(yǔ)言理解能力,新增的 “computer use” 功能,能夠理解用戶(hù)的指令并執行相應的操作,讓其能夠如同人類(lèi)一般與電腦進(jìn)行交互,例如打開(kāi)應用程序、瀏覽網(wǎng)頁(yè)、輸入文本等。在 OSWorld 基準測試平臺上,Claude 3.5 Sonnet 在僅使用截圖的測試類(lèi)別中得分 14.9%,遠超第二名的 7.8%。雖然這一成績(jì)低于人類(lèi)水平,但在人工智能領(lǐng)域已是一大突破。同時(shí),Claude 3.5 Sonnet 開(kāi)放了API與計算機界面的交互,便于開(kāi)發(fā)人員基于該模型進(jìn)行二次開(kāi)發(fā)。
AutoGLM
智譜清言基于其GLM基座模型研發(fā)了新的具備“Phone Use”功能的 AutoGLM 。用戶(hù)可以通過(guò)文字/語(yǔ)音指令,使其模擬人類(lèi)動(dòng)作操作終端。例如,通過(guò)語(yǔ)音指令可以完成朋友圈點(diǎn)贊、寫(xiě)評論、電商網(wǎng)購、O2O 平臺寫(xiě)五星好評、外賣(mài)下單、資料檢索篩選、高鐵購票等多個(gè)任務(wù)。其操作流程簡(jiǎn)單便捷,用戶(hù)可以說(shuō) “幫我點(diǎn)個(gè)黃燜雞米飯外賣(mài)”,AutoGLM 就會(huì )自動(dòng)打開(kāi)外賣(mài)軟件,搜索黃燜雞米飯,選擇訂單頁(yè)面選項,最后加購下單。
OmniParser 框架
微軟的 OmniParser 框架是一款解析和識別屏幕上可交互圖標的 AI 工具。它結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結構等顯式基礎數據,能夠在桌面、移動(dòng)設備和網(wǎng)頁(yè)等上跨平臺工作。OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。同時(shí),OmniParser框架是一個(gè)用于構建可操控終端設備的大模型的框架,GPT-4V 在使用 OmniParser 插件后,圖標的正確標記率從 70.5% 提升至 93.8%。OmniParser 的發(fā)布為開(kāi)發(fā)者提供了一個(gè)強大的工具,助力創(chuàng )建更智能、更高效的用戶(hù)界面驅動(dòng)智能體。
可操控終端的大模型與傳統RPA技術(shù)的比較
Claude 3.5 Sonnet 能夠準確計算需要移動(dòng)鼠標的像素數,從而精準地點(diǎn)擊屏幕上的正確位置。智譜的 AutoGLM 基于自進(jìn)化在線(xiàn)強化學(xué)習框架(WEBRL)通過(guò)自適應學(xué)習策略,在真實(shí)環(huán)境中動(dòng)態(tài)調整任務(wù)難度,實(shí)現任務(wù)的逐步迭代和優(yōu)化,提升執行效率和準確度。微軟的 OmniParser 通過(guò)其中的圖標檢測模型,以及功能描述模型,用于識別可互動(dòng)的區域、分析這些區域的功能。大模型通過(guò)大量的多模態(tài)訓練數據,能夠理解自然語(yǔ)言和圖片的含義,基于屏幕截圖更好地理解當前狀態(tài),從而執行多種復雜任務(wù)。
而傳統 RPA 技術(shù)則是一種軟件解決方案,通過(guò)模擬人類(lèi)用戶(hù)的操作行為,自動(dòng)化執行重復性高、規則性強的任務(wù)。傳統RPA 機器人可以登錄應用程序、移動(dòng)文件、復制數據、填寫(xiě)表單等,幾乎可以完成任何通過(guò)用戶(hù)界面進(jìn)行的任務(wù)。它主要側重于執行具體的操作流程,對于復雜的語(yǔ)言理解和生成能力相對較弱。
可操控終端的大模型對傳統RPA行業(yè)的影響
降低學(xué)習門(mén)檻
傳統的RPA技術(shù)需要用戶(hù)具備一定的編程基礎,而可操控終端設備的大模型則無(wú)需用戶(hù)編寫(xiě)代碼,只需通過(guò)自然語(yǔ)言指令即可實(shí)現自動(dòng)化操作,極大地降低了RPA的學(xué)習門(mén)檻。
提高自動(dòng)化效率
可操控終端設備的大模型能夠理解用戶(hù)的指令并執行相應的操作,從而實(shí)現更高效的自動(dòng)化流程。例如,用戶(hù)可以指令模型打開(kāi)應用程序、瀏覽網(wǎng)頁(yè)、輸入文本等,無(wú)需手動(dòng)操作,節省了大量時(shí)間和精力。
適應復雜場(chǎng)景
大模型為RPA 裝上了“大腦”,賦予了RPA更深層次的理解和學(xué)習能力。大模型通過(guò)深度學(xué)習算法,能夠理解復雜的語(yǔ)言邏輯和上下文關(guān)系,更好地解析用戶(hù)的意圖并執行相應的操作,適應更復雜的場(chǎng)景,從而對各種任務(wù)進(jìn)行智能分析和規劃。RPA 在大模型的加持下,不再僅僅是機械地執行重復性任務(wù),而是能夠處理更為復雜和抽象的任務(wù)。
大模型在RPA行業(yè)的未來(lái)發(fā)展趨勢
隨著(zhù)大模型技術(shù)的迭代,可操控終端設備的大模型在RPA行業(yè)展現出巨大的潛力。未來(lái),這類(lèi)模型將朝著(zhù)以下幾個(gè)方向發(fā)展:
一是結合其他人工智能技術(shù)??刹倏亟K端設備的大模型將會(huì )與其他人工智能技術(shù)相結合,使系統更好地理解用戶(hù)的訴求,實(shí)現更智能化、自動(dòng)化的流程,更加精準地完成用戶(hù)需求、提升用戶(hù)體驗。
二是自適應??刹倏亟K端設備的大模型將會(huì )具備更強的自適應能力,能夠根據不同的場(chǎng)景和任務(wù)進(jìn)行自我調整,從而適應更復雜的自動(dòng)化需求。
三是個(gè)性化??刹倏亟K端設備的大模型將會(huì )根據用戶(hù)的行為和偏好進(jìn)行個(gè)性化定制,從而提供更加個(gè)性化的自動(dòng)化服務(wù)。
總結與建議
可操控終端設備的大模型為傳統RPA行業(yè)帶來(lái)了革命性的變化,極大地降低了RPA的學(xué)習門(mén)檻,提高了自動(dòng)化效率,并推動(dòng)了RPA與其他技術(shù)的融合。未來(lái),可操控終端設備的大模型將會(huì )在RPA行業(yè)得到更廣泛的應用,并推動(dòng)RPA行業(yè)向智能化、自適應和個(gè)性化的方向發(fā)展。為了更好地推動(dòng)可操控終端設備的大模型在RPA行業(yè)的應用,因此建議:
一是完善生態(tài)系統。 建立完善的生態(tài)系統,包括開(kāi)發(fā)工具、API、社區等,方便開(kāi)發(fā)者使用和開(kāi)發(fā)可操控終端設備的大模型。
二是培養企業(yè)員工對大模型的掌握。對于需要處理大量重復性工作的行政人員,培養其具備人工智能大模型使用的能力,使未來(lái)大量的機械、流程化的操作可以依靠大模型來(lái)快速完成,行政人員僅需負責監督大模型處理結果是否正確,節約人工成本。