什么是Migician?
Migician是由北京交通大學、華中科技大學和清華大學聯合推出的一款多模態大語言模型(MLLM),專注于自由形式的多圖像定位(Multi-Image Grounding, MIG)任務。該模型基于大規模指令調優數據集MGrounding-630k進行訓練,采用兩階段訓練方法,結合多圖像理解和單圖像定位能力,實現了端到端的多圖像定位功能。Migician的設計和訓練方法為多模態模型在復雜視覺場景中的應用提供了新的思路,推動了多圖像理解與細粒度視覺定位的融合。
Migician的主要功能
跨圖像定位
Migician能夠在多幅圖像中找到與查詢相關的對象或區域,并提供精確的位置信息,如坐標框。這種跨圖像定位能力使得Migician在需要多視角感知和動態目標跟蹤的場景中表現尤為出色。
靈活的輸入形式
Migician支持多種靈活的輸入形式,包括文本描述、圖像或兩者的組合。例如,用戶可以輸入“在圖2中找到與圖1相似的物體,但顏色不同”,Migician將根據這一查詢在多幅圖像中進行定位。
多任務支持
Migician能夠處理多種與多圖像相關的任務,如對象跟蹤、差異識別、共同對象定位等。這種多任務支持能力使得Migician在復雜視覺場景中的應用更加廣泛。
高效推理
基于端到端的模型設計,Migician能夠直接在多圖像場景中進行推理,避免了傳統方法中多步推理和錯誤傳播的問題,從而實現了高效推理。
Migician的技術原理
端到端的多圖像定位框架
Migician采用端到端的模型架構,直接處理多圖像定位任務,避免了傳統方法中將任務分解為多個子任務的復雜性和效率問題。同時,Migician能夠理解多幅圖像的內容,并根據查詢直接輸出目標對象的位置。
大規模指令調優數據集(MGrounding-630k)
MGrounding-630k是一個包含超過63萬條多圖像定位任務的數據集。該數據集涵蓋了多種任務類型,如靜態差異定位、共同對象定位、對象跟蹤等,并結合自由形式的指令,使模型能夠學習到多樣化的定位能力。
兩階段訓練方法
Migician的訓練分為兩個階段:
-
第一階段:模型在多種多圖像任務上進行訓練,學習基本的多圖像理解和定位能力。
-
第二階段:基于自由形式的指令調優,提升模型在復雜查詢下的定位能力,保持對多樣化任務的適應性。
多模態融合與推理
Migician結合視覺和語言模態的信息,基于多模態融合實現對復雜查詢的理解和定位。這種融合處理抽象的視覺語義信息,例如通過對比、相似性或功能關聯定位目標對象。
模型合并技術
Migician采用模型合并技術,將不同訓練階段的權重進行平均,優化整體性能。
Migician的項目地址
-
項目官網:Migician官網
-
GitHub倉庫:Migician GitHub
-
HuggingFace模型庫:Migician HuggingFace
-
arXiv技術論文:Migician技術論文
Migician的應用場景
自動駕駛
Migician能夠快速定位車輛周圍的行人、障礙物等目標,支持多視角感知和動態目標跟蹤,提升自動駕駛的安全性和效率。
安防監控
Migician能夠實現多攝像頭聯動識別異常行為或目標,分析人群聚集、快速移動等異常情況,提升安防監控的智能化水平。
機器人交互
Migician能夠精準定位目標物體,支持機器人在復雜環境中完成抓取、導航等任務,推動機器人技術的發展。
圖像編輯
Migician能夠分析多幅圖像內容,實現對象替換、刪除或創意內容生成,為圖像編輯提供強大的技術支持。
醫療影像
Migician能夠融合多模態影像,快速定位病變區域或異常組織,支持動態監測,為醫療影像分析提供新的思路。
總結
Migician作為一款多模態視覺定位模型,憑借其強大的跨圖像定位能力、靈活的輸入形式、多任務支持和高效推理,正在推動多圖像理解與細粒度視覺定位的融合。其在自動駕駛、安防監控、機器人交互、圖像編輯和醫療影像等領域的廣泛應用,展現了其巨大的潛力和價值。