應用方面
-
谷歌發布 AI 圖像生成工具:谷歌發布全新的 AI 圖像生成工具 Imagen,能根據用戶文字描述快速生成高質量圖像,還支持對生成圖像進行亮度、對比度、色彩等參數調整及元素添加或刪除,為設計師等提供便捷創作工具。
-
智能學習輔助系統推出:斯坦福大學與 Coursera 合作推出基于 AI 的智能學習輔助系統,可根據學生學習情況量身定制學習計劃和內容,具備智能答疑功能,能提高學生學習效果和興趣。
-
自動駕駛技術突破:Waymo 自動駕駛汽車在復雜城市道路環境下,成功完成 100 公里自動駕駛任務,準確識別交通標志和路況信息,標志其自動駕駛技術達到新高度。
-
AI 眼鏡競爭白熱化:Meta 與雷朋合作的智能眼鏡 “Ray-Ban Meta” 持續熱銷,2025 年多品牌 AR 功能眼鏡將量產上市。
-
人形機器人技術突破:宇樹科技春晚 “扭秧歌機器人” 動作同步精度遠超特斯拉機器人,AI 訓練技術推動具身智能發展,工業場景應用加速落地。
框架方面
-
谷歌推出 Gemini 2.0 系列模型:谷歌全面推出 Gemini 2.0 系列模型,包括 Gemini 2.0 Flash、Gemini 2.0 Flash - Lite 和 Gemini 2.0 Pro 等,其中 Gemini 2.0 Flash - Lite 性價比高,Gemini 2.0 Pro 強調世界知識理解和推理能力,可調用谷歌搜索工具和執行代碼,另外還發布了升級版 Gemini 2.0 Flash Thinking,支持 1M 長上下文處理,減少推理矛盾,登頂 Chatbot Arena 排行榜。
-
OpenAI 推出 AI 代理:OpenAI 推出 AI 代理 “Operator”,基于 CUA 模型,可自主執行網頁操作任務,支持屏幕截圖感知界面并自我糾錯,敏感操作需人工確認。
-
字節跳動開源模型:字節跳動開源 UI - TARS 模型,支持自然語言操控電腦界面,在基準測試中超越 GPT - 4 和 Claude,提供 2B、7B、72B 參數版本。
-
阿里云發布新模型:阿里云發布 MoE 架構旗艦模型 Qwen2.5 - Max,預訓練數據超 20 萬億 tokens,綜合能力超越全球主流開源模型,支持長視頻理解和跨設備任務。
-
DeepSeek 發布多模態模型:DeepSeek 發布視覺多模態模型 Janus - Pro(1B/7B 參數),在 GenEval 和 DPG - Bench 評測中擊敗 DALL - E 3 和 Stable Diffusion,支持多模態生成與理解。
-
中國電信發布新模型:中國電信推出 TeleAI - t1 - preview,在數學和邏輯推理任務中表現卓越,AIME 2024 評測得分 60 分,遠超 OpenAI 和 GPT - 4,支持古今單位換算及復雜問題求解,即將上線天翼 AI 開放平臺。