Ovis2:阿里巴巴推出多模態(tài)大語言模型,解鎖AI新可能
在人工智能領(lǐng)域,多模態(tài)技術(shù)正在掀起新一輪的技術(shù)革命。近日,阿里巴巴國際團(tuán)隊(duì)推出了全新的多模態(tài)大語言模型——Ovis2,這款模型在多模態(tài)理解與生成、視頻處理、多語言支持等方面展現(xiàn)了卓越性能。本文將深入解析Ovis2的技術(shù)特點(diǎn)、應(yīng)用場景及其對AI領(lǐng)域的重要意義。
Ovis2是什么?
Ovis2是阿里巴巴國際團(tuán)隊(duì)推出的一款新型多模態(tài)大語言模型,基于結(jié)構(gòu)化嵌入對齊技術(shù),有效解決了視覺與文本模態(tài)間的差異。與前代Ovis相比,Ovis2在以下幾個(gè)方面實(shí)現(xiàn)了顯著提升:
-
強(qiáng)化小規(guī)模模型能力:優(yōu)化訓(xùn)練策略,提升小規(guī)模模型的能力密度。
-
增強(qiáng)推理能力:通過指令微調(diào)和偏好學(xué)習(xí),顯著提升了思維鏈(CoT)推理能力。
-
引入視頻處理能力:支持多圖像輸入和關(guān)鍵幀選擇,提升跨幀視覺信息處理能力。
-
多語言支持與OCR能力:支持多種語言的文本處理,從復(fù)雜視覺元素中提取結(jié)構(gòu)化數(shù)據(jù)。
Ovis2提供1B、2B、4B、8B、16B和34B六個(gè)不同參數(shù)規(guī)模的模型版本,均在OpenCompass多模態(tài)評(píng)測榜單中表現(xiàn)出色,尤其在數(shù)學(xué)推理和視頻理解方面表現(xiàn)突出。
Ovis2的主要功能
-
多模態(tài)理解與生成 Ovis2能夠處理文本、圖像、視頻等多種輸入模態(tài),生成高質(zhì)量的文本輸出,支持復(fù)雜場景下的視覺和語言任務(wù)。
-
強(qiáng)化推理能力 基于思維鏈(CoT)推理能力的提升,Ovis2能夠解決復(fù)雜的邏輯和數(shù)學(xué)問題,提供逐步推理的解決方案。
-
視頻和多圖像處理 Ovis2引入視頻理解能力,支持關(guān)鍵幀選擇和多圖像輸入,能夠處理跨幀的復(fù)雜視覺信息。
-
多語言支持和OCR能力 Ovis2支持多種語言的文本處理,并能夠從復(fù)雜視覺元素(如表格、圖表)中提取結(jié)構(gòu)化數(shù)據(jù)。
-
小模型優(yōu)化 通過優(yōu)化訓(xùn)練策略,Ovis2使小規(guī)模模型達(dá)到高能力密度,滿足不同應(yīng)用場景的需求。
Ovis2的技術(shù)原理
-
結(jié)構(gòu)化嵌入對齊 Ovis2基于視覺tokenizer將圖像分割成圖像塊(patch),提取特征后映射到“視覺單詞”上,形成概率化的視覺token。視覺token與文本token一起輸入到LLM中,實(shí)現(xiàn)模態(tài)間的結(jié)構(gòu)化對齊。
-
四階段訓(xùn)練策略
-
第一階段:凍結(jié)LLM,訓(xùn)練視覺模塊,學(xué)習(xí)視覺特征到嵌入的轉(zhuǎn)化。
-
第二階段:進(jìn)一步訓(xùn)練視覺模塊,增強(qiáng)高分辨率圖像理解和多語言O(shè)CR能力。
-
第三階段:用對話形式的視覺數(shù)據(jù),使視覺嵌入對齊LLM的對話格式。
-
第四階段:進(jìn)行多模態(tài)指令訓(xùn)練和偏好學(xué)習(xí),提升模型對用戶指令的遵循能力和輸出質(zhì)量。
-
-
視頻理解增強(qiáng) Ovis2采用MDP3算法(基于幀與文本的相關(guān)性、組合多樣性和序列性)選擇關(guān)鍵幀,提升視頻理解能力。
-
基于Transformer架構(gòu) Ovis2結(jié)合強(qiáng)大的視覺編碼器(如ViT)和語言模型(如Qwen),實(shí)現(xiàn)高效的多模態(tài)融合和生成。
Ovis2的應(yīng)用場景
-
研究人員和開發(fā)者 Ovis2為從事人工智能和多模態(tài)技術(shù)研究的專業(yè)人員提供了強(qiáng)大的工具,助力模型優(yōu)化和算法改進(jìn)。同時(shí),開發(fā)者可以利用Ovis2開發(fā)智能應(yīng)用。
-
內(nèi)容創(chuàng)作者 新聞媒體、廣告和營銷從業(yè)者可以通過Ovis2快速生成圖片或視頻的描述、文案和標(biāo)題,顯著提升創(chuàng)作效率。
-
教育工作者和學(xué)生 教師可以利用Ovis2生成圖片或視頻的解釋性文字,幫助學(xué)生理解復(fù)雜內(nèi)容。學(xué)生則可以通過視覺問答功能解決學(xué)習(xí)中的問題。
-
企業(yè)用戶 金融、法律、醫(yī)療等行業(yè)從業(yè)者可以利用Ovis2處理復(fù)雜的文檔、圖像或視頻數(shù)據(jù),提取關(guān)鍵信息,輔助決策。
-
普通用戶和技術(shù)愛好者 Ovis2為對人工智能感興趣的人群提供了探索技術(shù)的機(jī)會(huì),支持簡單的多模態(tài)任務(wù),如生成圖片描述或進(jìn)行視覺問答。
Ovis2的項(xiàng)目地址
-
GitHub倉庫:https://github.com/AIDC-AI/Ovis
-
HuggingFace模型庫:https://huggingface.co/collections/AIDC-AI/ovis2
結(jié)語
Ovis2的推出不僅為多模態(tài)大模型的研究和應(yīng)用提供了新的方向,也為各行各業(yè)的用戶提供了強(qiáng)大的工具。無論是技術(shù)開發(fā)者、內(nèi)容創(chuàng)作者,還是普通用戶,Ovis2都能滿足多樣化的應(yīng)用場景需求。未來,隨著Ovis2的開源和社區(qū)支持的增強(qiáng),其在AI領(lǐng)域的影響力將進(jìn)一步擴(kuò)大。