智譜 CogAgent-9B:開啟 GUI Agent 技術新時代，引領智能交互變革

AI百科 2024-12-28 09:54:21 奇想AI導航網(wǎng)

在數(shù)字化時代，圖形用戶界面（GUI）已成為人機交互的核心。智譜AI最新開源的CogAgent-9B-20241220模型，標志著GUI Agent技術的重大進步。本文將詳細介紹CogAgent-9B的技術架構、優(yōu)化、應用與性能評估，以及GUI Agent的未來展望。

CogAgent的誕生與發(fā)展

1.1 CogAgent-9B-20241220的發(fā)布

CogAgent-9B-20241220是基于視覺語言模型（VLM）的開源GUI代理模型，它的獨特之處在于僅依賴于屏幕截圖作為輸入，不需要HTML等文本表征。這一創(chuàng)新使得CogAgent能夠在各種基于GUI交互的場景中應用，如個人電腦、手機、車機設備等。

1.2 CogAgent執(zhí)行過程

CogAgent-9B-20241220執(zhí)行用戶指令的過程如下：

以GUI截圖為唯一的環(huán)境輸入，結合已經(jīng)完成的動作歷史，計算當前GUI截圖中最合適的動作。
根據(jù)更新后的歷史動作和截圖，計算后續(xù)的操作。
重復上述過程，直到CogAgent認為指令執(zhí)行完畢。

CogAgent-9B的技術架構與優(yōu)化

2.1 模型基座和結構升級

CogAgent使用更強大的視覺語言模型GLM-4V-9B作為基座模型，大幅提升了模型的基座圖像理解性能。在視覺處理模塊上，CogAgent實現(xiàn)了更高效統(tǒng)一的視覺處理模塊，支持1120×1120原生高分辨率圖像輸入。

2.2 數(shù)據(jù)集豐富與完善

CogAgent團隊廣泛收集并整合了多種數(shù)據(jù)集，包括無監(jiān)督數(shù)據(jù)和GUI指令微調數(shù)據(jù)集。這些數(shù)據(jù)集的豐富性和多樣性為CogAgent提供了更廣泛的訓練和測試基礎，使其能夠更好地適應實際應用場景。

2.3 預訓練與后訓練策略優(yōu)化

在預訓練階段，CogAgent引入了GUI Grounding預訓練方法，通過屏幕截圖和layout對，構造界面子區(qū)域和layout表征的對應關系。在后訓練階段，CogAgent采用了更科學的GUI agent后訓練策略，使模型具備了更強的分析、推理、預測能力。

CogAgent-9B的應用與性能評估

CogAgent-9B-20241220在多個數(shù)據(jù)集上的測試結果顯示了其卓越的性能。尤其是在Screenspot、OmniAct、CogAgentBench-basic-cn、OSworld等數(shù)據(jù)集上，CogAgent均取得了領先的成績。模型在多平臺、多類別的GUI agent及GUI grounding benchmarks上取得了當前最優(yōu)的結果。

CogAgent-9B的主要功能

GUI理解和操作: CogAgent-9B能夠理解并操作圖形用戶界面（GUI），執(zhí)行如點擊按鈕、輸入文本等任務，極大地提升了與GUI交互的自動化能力。
屏幕截圖輸入: 模型僅依賴屏幕截圖作為輸入，無需HTML等文本表征，使其在多種設備上應用靈活，簡化了操作流程。
高分辨率處理: 支持高達1120×1120像素的高分辨率圖像輸入，CogAgent-9B能夠處理更復雜的視覺信息，提高了操作的精確度。
雙語交互:支持中文和英文的屏幕截圖和語言交互，增強了模型的國際化應用能力，滿足全球用戶的需求。
預測GUI操作:根據(jù)用戶指定的任務和歷史操作，CogAgent-9B能夠預測下一步的GUI操作，實現(xiàn)自動化任務的智能執(zhí)行。
自動化任務執(zhí)行:CogAgent-9B能模擬用戶操作，自動化執(zhí)行一系列GUI任務，提高了工作效率和減少了重復勞動。
跨平臺應用:適用于個人電腦、手機、車機等多種基于GUI交互的場景，展現(xiàn)了極強的跨平臺、跨系統(tǒng)泛化能力。
性能領先:在多個GUI操作數(shù)據(jù)集上取得了領先成績，顯示了CogAgent-9B卓越的性能。

CogAgent-9B的技術原理

視覺語言模型（VLM）:CogAgent-9B構建在強大的視覺語言模型GLM-4V-9B之上，能夠處理視覺數(shù)據(jù)（如屏幕截圖）和文本信息，實現(xiàn)對GUI元素的理解和操作。
雙流注意力機制:采用雙流注意力機制，將視覺元素映射到它們的文本標簽或描述，增強了模型預測用戶意圖和執(zhí)行相關操作的能力。
GUI Grounding預訓練:在預訓練階段，CogAgent-9B引入了GUI Grounding預訓練方法，通過屏幕截圖和layout對，構造界面子區(qū)域和layout表征的對應關系，提升模型對視覺輸入和GUI界面的基礎理解能力。
數(shù)據(jù)集豐富與完善:CogAgent-9B團隊廣泛收集并整合了多種數(shù)據(jù)集，包括無監(jiān)督數(shù)據(jù)和GUI指令微調數(shù)據(jù)集，為模型提供了廣泛的訓練和測試基礎。
預訓練與后訓練策略優(yōu)化:CogAgent-9B在預訓練階段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務，以構建界面子區(qū)域與布局表征的對應關系。在后訓練階段，采用了更科學的GUI agent后訓練策略，使模型具備了更強的分析、推理、預測能力。
模型推理及思維鏈優(yōu)化:CogAgent-9B將思維鏈分解為Status（當前屏幕狀態(tài)）、Plan（全局計劃）、Action（下一步自然語言描述）、Operation（下一步形式語言描述），并通過隨機采樣混合多種模式訓練數(shù)據(jù)，靈活調整和控制推理過程中的實際輸出。
動作空間完善:CogAgent-9B明確了基礎動作空間，并新增了LLM、QUOTE_TEXT、LAUNCH等高級動作，增強了模型的使用工具和交互能力。

CogAgent-9B的項目地址

Github倉庫: https://github.com/THUDM/CogAgent
HuggingFace模型庫: https://huggingface.co/THUDM/cogagent-9b-20241220

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數(shù)據(jù)集上進行了測試，并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進行了比較。結果顯示，CogAgent 在多個數(shù)據(jù)集上取得了領先的結果，證明了其在 GUI Agent 領域強大的性能。

CogAgent-9B的應用場景

自動化測試:在軟件開發(fā)中，CogAgent-9B可以用于自動化測試，模擬用戶操作來測試應用程序的GUI，提高測試效率和覆蓋率。
智能助手:作為智能個人助理，CogAgent-9B可以幫助用戶自動完成日常任務，如日程管理、郵件處理等。
客戶服務:在客戶服務領域，CogAgent-9B可以通過自動化操作來輔助客服人員，快速響應客戶需求并執(zhí)行相關操作。
智能家居控制:CogAgent-9B可以集成到智能家居系統(tǒng)中，通過GUI控制家中的各種智能設備。
智能座艙:在汽車領域，CogAgent-9B可以用于智能座艙系統(tǒng)，通過GUI與車載信息娛樂系統(tǒng)交互，提供更安全、便捷的駕駛體驗。

GUI Agent的未來展望

隨著CogAgent-9B-20241220的發(fā)布，GUI Agent的研究和工程熱又邁入一個新的臺階。智譜表示此版CogAgent模型已被應用于智譜AI的GLM-PC產(chǎn)品，并預計在2025年Q1會開展公測。GUI Agent產(chǎn)品有望在更多的應用領域中得到應用，如智能家居、智能座艙等，為用戶提供更智能、更便捷的交互體驗。
智譜AI開源的CogAgent-9B模型，以其強大的功能、先進的技術原理和廣泛的應用場景，為GUI Agent領域帶來了新的發(fā)展機遇。隨著技術的不斷迭代和優(yōu)化，CogAgent-9B有望在未來的智能體領域中發(fā)揮越來越重要的作用，引領AI智能體“看懂”屏幕的新潮流。