Ovis2：阿里巴巴推出多模態(tài)大語言模型，解鎖AI新可能

AI百科 2025-02-24 12:37:33 奇想AI導(dǎo)航網(wǎng)

在人工智能領(lǐng)域，多模態(tài)技術(shù)正在掀起新一輪的技術(shù)革命。近日，阿里巴巴國(guó)際團(tuán)隊(duì)推出了全新的多模態(tài)大語言模型——Ovis2，這款模型在多模態(tài)理解與生成、視頻處理、多語言支持等方面展現(xiàn)了卓越性能。本文將深入解析Ovis2的技術(shù)特點(diǎn)、應(yīng)用場(chǎng)景及其對(duì)AI領(lǐng)域的重要意義。

Ovis2是什么？

Ovis2是阿里巴巴國(guó)際團(tuán)隊(duì)推出的一款新型多模態(tài)大語言模型，基于結(jié)構(gòu)化嵌入對(duì)齊技術(shù)，有效解決了視覺與文本模態(tài)間的差異。與前代Ovis相比，Ovis2在以下幾個(gè)方面實(shí)現(xiàn)了顯著提升：

強(qiáng)化小規(guī)模模型能力：優(yōu)化訓(xùn)練策略，提升小規(guī)模模型的能力密度。
增強(qiáng)推理能力：通過指令微調(diào)和偏好學(xué)習(xí)，顯著提升了思維鏈（CoT）推理能力。
引入視頻處理能力：支持多圖像輸入和關(guān)鍵幀選擇，提升跨幀視覺信息處理能力。
多語言支持與OCR能力：支持多種語言的文本處理，從復(fù)雜視覺元素中提取結(jié)構(gòu)化數(shù)據(jù)。

Ovis2提供1B、2B、4B、8B、16B和34B六個(gè)不同參數(shù)規(guī)模的模型版本，均在OpenCompass多模態(tài)評(píng)測(cè)榜單中表現(xiàn)出色，尤其在數(shù)學(xué)推理和視頻理解方面表現(xiàn)突出。

Ovis2的主要功能

多模態(tài)理解與生成 Ovis2能夠處理文本、圖像、視頻等多種輸入模態(tài)，生成高質(zhì)量的文本輸出，支持復(fù)雜場(chǎng)景下的視覺和語言任務(wù)。
強(qiáng)化推理能力 基于思維鏈（CoT）推理能力的提升，Ovis2能夠解決復(fù)雜的邏輯和數(shù)學(xué)問題，提供逐步推理的解決方案。
視頻和多圖像處理 Ovis2引入視頻理解能力，支持關(guān)鍵幀選擇和多圖像輸入，能夠處理跨幀的復(fù)雜視覺信息。
多語言支持和OCR能力 Ovis2支持多種語言的文本處理，并能夠從復(fù)雜視覺元素（如表格、圖表）中提取結(jié)構(gòu)化數(shù)據(jù)。
小模型優(yōu)化 通過優(yōu)化訓(xùn)練策略，Ovis2使小規(guī)模模型達(dá)到高能力密度，滿足不同應(yīng)用場(chǎng)景的需求。

Ovis2的技術(shù)原理

結(jié)構(gòu)化嵌入對(duì)齊 Ovis2基于視覺tokenizer將圖像分割成圖像塊（patch），提取特征后映射到“視覺單詞”上，形成概率化的視覺token。視覺token與文本token一起輸入到LLM中，實(shí)現(xiàn)模態(tài)間的結(jié)構(gòu)化對(duì)齊。
四階段訓(xùn)練策略
1. 第一階段：凍結(jié)LLM，訓(xùn)練視覺模塊，學(xué)習(xí)視覺特征到嵌入的轉(zhuǎn)化。
2. 第二階段：進(jìn)一步訓(xùn)練視覺模塊，增強(qiáng)高分辨率圖像理解和多語言O(shè)CR能力。
3. 第三階段：用對(duì)話形式的視覺數(shù)據(jù)，使視覺嵌入對(duì)齊LLM的對(duì)話格式。
4. 第四階段：進(jìn)行多模態(tài)指令訓(xùn)練和偏好學(xué)習(xí)，提升模型對(duì)用戶指令的遵循能力和輸出質(zhì)量。
視頻理解增強(qiáng) Ovis2采用MDP3算法（基于幀與文本的相關(guān)性、組合多樣性和序列性）選擇關(guān)鍵幀，提升視頻理解能力。
基于Transformer架構(gòu) Ovis2結(jié)合強(qiáng)大的視覺編碼器（如ViT）和語言模型（如Qwen），實(shí)現(xiàn)高效的多模態(tài)融合和生成。

Ovis2的應(yīng)用場(chǎng)景

研究人員和開發(fā)者 Ovis2為從事人工智能和多模態(tài)技術(shù)研究的專業(yè)人員提供了強(qiáng)大的工具，助力模型優(yōu)化和算法改進(jìn)。同時(shí)，開發(fā)者可以利用Ovis2開發(fā)智能應(yīng)用。
內(nèi)容創(chuàng)作者 新聞媒體、廣告和營(yíng)銷從業(yè)者可以通過Ovis2快速生成圖片或視頻的描述、文案和標(biāo)題，顯著提升創(chuàng)作效率。
教育工作者和學(xué)生 教師可以利用Ovis2生成圖片或視頻的解釋性文字，幫助學(xué)生理解復(fù)雜內(nèi)容。學(xué)生則可以通過視覺問答功能解決學(xué)習(xí)中的問題。
企業(yè)用戶 金融、法律、醫(yī)療等行業(yè)從業(yè)者可以利用Ovis2處理復(fù)雜的文檔、圖像或視頻數(shù)據(jù)，提取關(guān)鍵信息，輔助決策。
普通用戶和技術(shù)愛好者 Ovis2為對(duì)人工智能感興趣的人群提供了探索技術(shù)的機(jī)會(huì)，支持簡(jiǎn)單的多模態(tài)任務(wù)，如生成圖片描述或進(jìn)行視覺問答。

Ovis2的項(xiàng)目地址

GitHub倉庫：https://github.com/AIDC-AI/Ovis
HuggingFace模型庫：https://huggingface.co/collections/AIDC-AI/ovis2

結(jié)語

Ovis2的推出不僅為多模態(tài)大模型的研究和應(yīng)用提供了新的方向，也為各行各業(yè)的用戶提供了強(qiáng)大的工具。無論是技術(shù)開發(fā)者、內(nèi)容創(chuàng)作者，還是普通用戶，Ovis2都能滿足多樣化的應(yīng)用場(chǎng)景需求。未來，隨著Ovis2的開源和社區(qū)支持的增強(qiáng)，其在AI領(lǐng)域的影響力將進(jìn)一步擴(kuò)大。