-
DeepSeek 發布大一統模型 Janus-Pro:DeepSeek 發布了大一統模型 Janus-Pro,采用統一的 Transformer 架構,能夠同時實現圖片理解和生成。該模型提供 1B 和 7B 兩種規模,適配多種應用場景。Janus-Pro 全面開源,支持商用,使用 MIT 協議,便于開發者部署和應用,且在基準測試中表現優異,展現出全面的能力。當日,DeepSeek 應用在全球多個國家和地區的 App Store 登頂,在美區下載榜超越 ChatGPT,其模型憑借先進技術、高性價比和開源策略,引發全球關注,相關概念股在 A 股市場掀起熱潮 。
-
阿里通義千問發布系列模型和框架:阿里通義千問發布開源 Qwen2.5-1M 模型及推理框架,包含 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 模型,首次實現 1M 長度的上下文擴展。團隊還開源基于 vLLM 的推理框架,通過稀疏注意力技術使處理速度提升 3 至 7 倍。同時,推出 Chat 平臺 Qwen Chat (https://chat.qwenlm.ai/) ,用戶可進行對話、編程與生成多媒體內容,支持 1M 長序列的處理。此外,通義千問還發布全新視覺模型 Qwen2.5-VL。相較于上一版本,Qwen2.5-VL 開源了 Base 和 Instruct 模型,提供 3B、7B 和 72B 三種模型尺寸,具有更豐富感知能力,能識別分析圖像中文本、圖表和布局,還具備推理及工具使用能力,初步具備電腦和手機操作能力,并且能夠理解超過 1 小時的長視頻。
? 版權聲明
本站文章版權歸奇想AI導航網所有,未經允許禁止任何形式的轉載。