智譜 CogAgent-9B:開啟 GUI Agent 技術新時代,引領智能交互變革
在數(shù)字化時代,圖形用戶界面(GUI)已成為人機交互的核心。智譜AI最新開源的CogAgent-9B-20241220模型,標志著GUI Agent技術的重大進步。本文將詳細介紹CogAgent-9B的技術架構、優(yōu)化、應用與性能評估,以及GUI Agent的未來展望。
CogAgent的誕生與發(fā)展
1.1 CogAgent-9B-20241220的發(fā)布
CogAgent-9B-20241220是基于視覺語言模型(VLM)的開源GUI代理模型,它的獨特之處在于僅依賴于屏幕截圖作為輸入,不需要HTML等文本表征。這一創(chuàng)新使得CogAgent能夠在各種基于GUI交互的場景中應用,如個人電腦、手機、車機設備等。
1.2 CogAgent執(zhí)行過程
CogAgent-9B-20241220執(zhí)行用戶指令的過程如下:
- 以GUI截圖為唯一的環(huán)境輸入,結合已經(jīng)完成的動作歷史,計算當前GUI截圖中最合適的動作。
- 根據(jù)更新后的歷史動作和截圖,計算后續(xù)的操作。
- 重復上述過程,直到CogAgent認為指令執(zhí)行完畢。
CogAgent-9B的技術架構與優(yōu)化
2.1 模型基座和結構升級
CogAgent使用更強大的視覺語言模型GLM-4V-9B作為基座模型,大幅提升了模型的基座圖像理解性能。在視覺處理模塊上,CogAgent實現(xiàn)了更高效統(tǒng)一的視覺處理模塊,支持1120×1120原生高分辨率圖像輸入。
2.2 數(shù)據(jù)集豐富與完善
CogAgent團隊廣泛收集并整合了多種數(shù)據(jù)集,包括無監(jiān)督數(shù)據(jù)和GUI指令微調數(shù)據(jù)集。這些數(shù)據(jù)集的豐富性和多樣性為CogAgent提供了更廣泛的訓練和測試基礎,使其能夠更好地適應實際應用場景。
2.3 預訓練與后訓練策略優(yōu)化
在預訓練階段,CogAgent引入了GUI Grounding預訓練方法,通過屏幕截圖和layout對,構造界面子區(qū)域和layout表征的對應關系。在后訓練階段,CogAgent采用了更科學的GUI agent后訓練策略,使模型具備了更強的分析、推理、預測能力。
CogAgent-9B的應用與性能評估
CogAgent-9B-20241220在多個數(shù)據(jù)集上的測試結果顯示了其卓越的性能。尤其是在Screenspot、OmniAct、CogAgentBench-basic-cn、OSworld等數(shù)據(jù)集上,CogAgent均取得了領先的成績。模型在多平臺、多類別的GUI agent及GUI grounding benchmarks上取得了當前最優(yōu)的結果。
CogAgent-9B的主要功能
-
GUI理解和操作: CogAgent-9B能夠理解并操作圖形用戶界面(GUI),執(zhí)行如點擊按鈕、輸入文本等任務,極大地提升了與GUI交互的自動化能力。
-
屏幕截圖輸入: 模型僅依賴屏幕截圖作為輸入,無需HTML等文本表征,使其在多種設備上應用靈活,簡化了操作流程。
-
高分辨率處理: 支持高達1120×1120像素的高分辨率圖像輸入,CogAgent-9B能夠處理更復雜的視覺信息,提高了操作的精確度。
-
雙語交互:支持中文和英文的屏幕截圖和語言交互,增強了模型的國際化應用能力,滿足全球用戶的需求。
-
預測GUI操作:根據(jù)用戶指定的任務和歷史操作,CogAgent-9B能夠預測下一步的GUI操作,實現(xiàn)自動化任務的智能執(zhí)行。
-
自動化任務執(zhí)行:CogAgent-9B能模擬用戶操作,自動化執(zhí)行一系列GUI任務,提高了工作效率和減少了重復勞動。
-
跨平臺應用:適用于個人電腦、手機、車機等多種基于GUI交互的場景,展現(xiàn)了極強的跨平臺、跨系統(tǒng)泛化能力。
- 性能領先:在多個GUI操作數(shù)據(jù)集上取得了領先成績,顯示了CogAgent-9B卓越的性能。
CogAgent-9B的技術原理
-
視覺語言模型(VLM):CogAgent-9B構建在強大的視覺語言模型GLM-4V-9B之上,能夠處理視覺數(shù)據(jù)(如屏幕截圖)和文本信息,實現(xiàn)對GUI元素的理解和操作。
-
雙流注意力機制:采用雙流注意力機制,將視覺元素映射到它們的文本標簽或描述,增強了模型預測用戶意圖和執(zhí)行相關操作的能力。
-
GUI Grounding預訓練:在預訓練階段,CogAgent-9B引入了GUI Grounding預訓練方法,通過屏幕截圖和layout對,構造界面子區(qū)域和layout表征的對應關系,提升模型對視覺輸入和GUI界面的基礎理解能力。
-
數(shù)據(jù)集豐富與完善:CogAgent-9B團隊廣泛收集并整合了多種數(shù)據(jù)集,包括無監(jiān)督數(shù)據(jù)和GUI指令微調數(shù)據(jù)集,為模型提供了廣泛的訓練和測試基礎。
-
預訓練與后訓練策略優(yōu)化:CogAgent-9B在預訓練階段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務,以構建界面子區(qū)域與布局表征的對應關系。在后訓練階段,采用了更科學的GUI agent后訓練策略,使模型具備了更強的分析、推理、預測能力。
-
模型推理及思維鏈優(yōu)化:CogAgent-9B將思維鏈分解為Status(當前屏幕狀態(tài))、Plan(全局計劃)、Action(下一步自然語言描述)、Operation(下一步形式語言描述),并通過隨機采樣混合多種模式訓練數(shù)據(jù),靈活調整和控制推理過程中的實際輸出。
-
動作空間完善:CogAgent-9B明確了基礎動作空間,并新增了LLM、QUOTE_TEXT、LAUNCH等高級動作,增強了模型的使用工具和交互能力。
CogAgent-9B的項目地址
-
Github倉庫: https://github.com/THUDM/CogAgent
-
HuggingFace模型庫: https://huggingface.co/THUDM/cogagent-9b-20241220

CogAgent-9B的應用場景
-
自動化測試:在軟件開發(fā)中,CogAgent-9B可以用于自動化測試,模擬用戶操作來測試應用程序的GUI,提高測試效率和覆蓋率。
-
智能助手:作為智能個人助理,CogAgent-9B可以幫助用戶自動完成日常任務,如日程管理、郵件處理等。
-
客戶服務:在客戶服務領域,CogAgent-9B可以通過自動化操作來輔助客服人員,快速響應客戶需求并執(zhí)行相關操作。
-
智能家居控制:CogAgent-9B可以集成到智能家居系統(tǒng)中,通過GUI控制家中的各種智能設備。
-
智能座艙:在汽車領域,CogAgent-9B可以用于智能座艙系統(tǒng),通過GUI與車載信息娛樂系統(tǒng)交互,提供更安全、便捷的駕駛體驗。
GUI Agent的未來展望
隨著CogAgent-9B-20241220的發(fā)布,GUI Agent的研究和工程熱又邁入一個新的臺階。智譜表示此版CogAgent模型已被應用于智譜AI的GLM-PC產(chǎn)品,并預計在2025年Q1會開展公測。GUI Agent產(chǎn)品有望在更多的應用領域中得到應用,如智能家居、智能座艙等,為用戶提供更智能、更便捷的交互體驗。
智譜AI開源的CogAgent-9B模型,以其強大的功能、先進的技術原理和廣泛的應用場景,為GUI Agent領域帶來了新的發(fā)展機遇。隨著技術的不斷迭代和優(yōu)化,CogAgent-9B有望在未來的智能體領域中發(fā)揮越來越重要的作用,引領AI智能體“看懂”屏幕的新潮流。