ENEL：引領未來3D多模態模型的無編碼器革命

AI百科 2025-02-26 10:28:52 奇想AI導航網

在人工智能領域，3D多模態模型一直是研究和應用的熱點。傳統的3D編碼器架構在處理點云數據時存在分辨率限制和語義嵌入不匹配的問題。為了解決這些問題，上海AI實驗室推出了ENEL（Exploring the Potential of Encoder-free Architectures in 3D LMMs），一款創新的無編碼器3D大型多模態模型。ENEL通過直接處理點云數據，實現了高效的語義對齊和多任務處理能力，為3D理解任務帶來了新的突破。

ENEL的核心優勢

無編碼器架構 ENEL去除了傳統的3D編碼器，直接將點云數據通過標記嵌入模塊轉換為離散點標記，與文本標記拼接后輸入到大型語言模型中。這種架構避免了編碼器中常見的點云分辨率限制和語義嵌入不匹配問題，顯著提升了模型的效率和準確性。
高效語義對齊 ENEL通過LLM嵌入的語義編碼策略，在預訓練階段引入混合語義損失（Hybrid Semantic Loss），能夠提取點云的高級語義特征，同時保留關鍵的幾何結構。這種策略使ENEL能夠更好地捕捉點云與文本之間的語義相關性，為3D多模態任務提供了強大的語義基礎。
多任務處理能力 ENEL在多個3D任務中表現出色，包括3D對象分類、字幕生成和視覺問答（VQA）。在Objaverse基準測試中，ENEL-7B模型的分類準確率達到55.0%，字幕生成任務的GPT分數達到50.92%，性能與13B規模的ShapeLLM相當。

ENEL的技術原理

LLM嵌入的語義編碼 在預訓練階段，ENEL通過探索不同的點云自監督損失（如掩碼建模損失、重建損失、對比損失和知識蒸餾損失），提出了一種混合語義損失（Hybrid Semantic Loss）。這種損失函數能夠將點云的高級語義信息嵌入到LLM中，替代傳統3D編碼器的功能。
分層幾何聚合 在指令調優階段，ENEL引入了分層幾何聚合策略。通過在LLM的早期層中對點云進行聚合和傳播操作，ENEL能夠關注點云的局部細節。具體而言，使用最遠點采樣（FPS）和k近鄰（k-NN）算法對點云進行下采樣和聚合，逐步整合點云的細粒度語義信息。