久久九九热免费视频,天堂√中文最新版在线,亚洲欧美校园春色,国产中文在线播放

智譜 CogAgent-9B:開啟 GUI Agent 技術新時代,引領智能交互變革

在數(shù)字化時代,圖形用戶界面(GUI)已成為人機交互的核心。智譜AI最新開源的CogAgent-9B-20241220模型,標志著GUI Agent技術的重大進步。本文將詳細介紹CogAgent-9B的技術架構、優(yōu)化、應用與性能評估,以及GUI Agent的未來展望。

CogAgent的誕生與發(fā)展

1.1 CogAgent-9B-20241220的發(fā)布

CogAgent-9B-20241220是基于視覺語言模型(VLM)的開源GUI代理模型,它的獨特之處在于僅依賴于屏幕截圖作為輸入,不需要HTML等文本表征。這一創(chuàng)新使得CogAgent能夠在各種基于GUI交互的場景中應用,如個人電腦、手機、車機設備等。

1.2 CogAgent執(zhí)行過程

CogAgent-9B-20241220執(zhí)行用戶指令的過程如下:

  • 以GUI截圖為唯一的環(huán)境輸入,結合已經(jīng)完成的動作歷史,計算當前GUI截圖中最合適的動作。
  • 根據(jù)更新后的歷史動作和截圖,計算后續(xù)的操作。
  • 重復上述過程,直到CogAgent認為指令執(zhí)行完畢。

CogAgent-9B的技術架構與優(yōu)化

2.1 模型基座和結構升級

CogAgent使用更強大的視覺語言模型GLM-4V-9B作為基座模型,大幅提升了模型的基座圖像理解性能。在視覺處理模塊上,CogAgent實現(xiàn)了更高效統(tǒng)一的視覺處理模塊,支持1120×1120原生高分辨率圖像輸入。

2.2 數(shù)據(jù)集豐富與完善

CogAgent團隊廣泛收集并整合了多種數(shù)據(jù)集,包括無監(jiān)督數(shù)據(jù)和GUI指令微調數(shù)據(jù)集。這些數(shù)據(jù)集的豐富性和多樣性為CogAgent提供了更廣泛的訓練和測試基礎,使其能夠更好地適應實際應用場景。

2.3 預訓練與后訓練策略優(yōu)化

在預訓練階段,CogAgent引入了GUI Grounding預訓練方法,通過屏幕截圖和layout對,構造界面子區(qū)域和layout表征的對應關系。在后訓練階段,CogAgent采用了更科學的GUI agent后訓練策略,使模型具備了更強的分析、推理、預測能力。

CogAgent-9B的應用與性能評估

CogAgent-9B-20241220在多個數(shù)據(jù)集上的測試結果顯示了其卓越的性能。尤其是在Screenspot、OmniAct、CogAgentBench-basic-cn、OSworld等數(shù)據(jù)集上,CogAgent均取得了領先的成績。模型在多平臺、多類別的GUI agent及GUI grounding benchmarks上取得了當前最優(yōu)的結果。

CogAgent-9B的主要功能

  • GUI理解和操作: CogAgent-9B能夠理解并操作圖形用戶界面(GUI),執(zhí)行如點擊按鈕、輸入文本等任務,極大地提升了與GUI交互的自動化能力。

  • 屏幕截圖輸入: 模型僅依賴屏幕截圖作為輸入,無需HTML等文本表征,使其在多種設備上應用靈活,簡化了操作流程。

  • 高分辨率處理: 支持高達1120×1120像素的高分辨率圖像輸入,CogAgent-9B能夠處理更復雜的視覺信息,提高了操作的精確度。

  • 雙語交互:支持中文和英文的屏幕截圖和語言交互,增強了模型的國際化應用能力,滿足全球用戶的需求。

  • 預測GUI操作:根據(jù)用戶指定的任務和歷史操作,CogAgent-9B能夠預測下一步的GUI操作,實現(xiàn)自動化任務的智能執(zhí)行。

  • 自動化任務執(zhí)行:CogAgent-9B能模擬用戶操作,自動化執(zhí)行一系列GUI任務,提高了工作效率和減少了重復勞動。

  • 跨平臺應用:適用于個人電腦、手機、車機等多種基于GUI交互的場景,展現(xiàn)了極強的跨平臺、跨系統(tǒng)泛化能力。

  • 性能領先:在多個GUI操作數(shù)據(jù)集上取得了領先成績,顯示了CogAgent-9B卓越的性能。

CogAgent-9B的技術原理

  • 視覺語言模型(VLM):CogAgent-9B構建在強大的視覺語言模型GLM-4V-9B之上,能夠處理視覺數(shù)據(jù)(如屏幕截圖)和文本信息,實現(xiàn)對GUI元素的理解和操作。

  • 雙流注意力機制:采用雙流注意力機制,將視覺元素映射到它們的文本標簽或描述,增強了模型預測用戶意圖和執(zhí)行相關操作的能力。

  • GUI Grounding預訓練:在預訓練階段,CogAgent-9B引入了GUI Grounding預訓練方法,通過屏幕截圖和layout對,構造界面子區(qū)域和layout表征的對應關系,提升模型對視覺輸入和GUI界面的基礎理解能力。

  • 數(shù)據(jù)集豐富與完善:CogAgent-9B團隊廣泛收集并整合了多種數(shù)據(jù)集,包括無監(jiān)督數(shù)據(jù)和GUI指令微調數(shù)據(jù)集,為模型提供了廣泛的訓練和測試基礎。

  • 預訓練與后訓練策略優(yōu)化:CogAgent-9B在預訓練階段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務,以構建界面子區(qū)域與布局表征的對應關系。在后訓練階段,采用了更科學的GUI agent后訓練策略,使模型具備了更強的分析、推理、預測能力。

  • 模型推理及思維鏈優(yōu)化:CogAgent-9B將思維鏈分解為Status(當前屏幕狀態(tài))、Plan(全局計劃)、Action(下一步自然語言描述)、Operation(下一步形式語言描述),并通過隨機采樣混合多種模式訓練數(shù)據(jù),靈活調整和控制推理過程中的實際輸出。

  • 動作空間完善:CogAgent-9B明確了基礎動作空間,并新增了LLM、QUOTE_TEXT、LAUNCH等高級動作,增強了模型的使用工具和交互能力。

CogAgent-9B的項目地址

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數(shù)據(jù)集上進行了測試,并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進行了比較。結果顯示,CogAgent 在多個數(shù)據(jù)集上取得了領先的結果,證明了其在 GUI Agent 領域強大的性能。

 

CogAgent-9B的應用場景

  • 自動化測試:在軟件開發(fā)中,CogAgent-9B可以用于自動化測試,模擬用戶操作來測試應用程序的GUI,提高測試效率和覆蓋率。

  • 智能助手:作為智能個人助理,CogAgent-9B可以幫助用戶自動完成日常任務,如日程管理、郵件處理等。

  • 客戶服務:在客戶服務領域,CogAgent-9B可以通過自動化操作來輔助客服人員,快速響應客戶需求并執(zhí)行相關操作。

  • 智能家居控制:CogAgent-9B可以集成到智能家居系統(tǒng)中,通過GUI控制家中的各種智能設備。

  • 智能座艙:在汽車領域,CogAgent-9B可以用于智能座艙系統(tǒng),通過GUI與車載信息娛樂系統(tǒng)交互,提供更安全、便捷的駕駛體驗。

GUI Agent的未來展望

隨著CogAgent-9B-20241220的發(fā)布,GUI Agent的研究和工程熱又邁入一個新的臺階。智譜表示此版CogAgent模型已被應用于智譜AI的GLM-PC產(chǎn)品,并預計在2025年Q1會開展公測。GUI Agent產(chǎn)品有望在更多的應用領域中得到應用,如智能家居、智能座艙等,為用戶提供更智能、更便捷的交互體驗。
智譜AI開源的CogAgent-9B模型,以其強大的功能、先進的技術原理和廣泛的應用場景,為GUI Agent領域帶來了新的發(fā)展機遇。隨著技術的不斷迭代和優(yōu)化,CogAgent-9B有望在未來的智能體領域中發(fā)揮越來越重要的作用,引領AI智能體“看懂”屏幕的新潮流。

 

? 版權聲明

相關文章

主站蜘蛛池模板: 东至县| 西昌市| 北流市| 探索| 乐都县| 宾阳县| 开鲁县| 高清| 陈巴尔虎旗| 东莞市| 凤阳县| 花莲县| 蓝山县| 萝北县| 桓仁| 建始县| 特克斯县| 汉寿县| 鄂伦春自治旗| 东宁县| 颍上县| 内黄县| 洛隆县| 平凉市| 抚州市| 洪湖市| 巴东县| 岳阳县| 婺源县| 长宁区| 兴仁县| 井陉县| 马边| 元江| 涪陵区| 涡阳县| 天水市| 读书| 东兰县| 丰县| 金秀|