一、魔樂社區的概念與定位
魔樂社區(Modelers)是由天翼云和華為聯合打造的開發者社區,于2024年8月29日在天翼云中國行·貴州站活動現場上線發布。它是一個一體化開源平臺,集成了openMindLibrary和openMindHubClinet等工具套件、模型庫、數據集和體驗空間等核心組件,覆蓋自然語言處理、視覺、音頻等領域。 其定位是致力于聚合優質中文AI資源,使能AI應用創新,加速伙伴商業閉環,通過提供極致易用的工具鏈,端到端支持AI應用開發的全流程。同時,結合國產化算力的使能,助力孵化國產原生模型,打造開放共享的人工智能生態社區,為開發者獲取領先的人工智能技術,構建有競爭力和差異化的模型及應用創造條件。
二、魔樂社區的資源與服務
(一)豐富的模型資源
-
模型庫資源數量可觀 魔樂社區擁有海量優質AI模型資源,已發布5800個模型和145個應用。其中包括1000 +優質大模型,涵蓋TeleChat等主流大模型。這些模型分布在不同應用領域,如自然語言處理、視覺、音頻等。開發者可以輕松找到適合自身項目需求的模型,無論是用于研究目的還是商業產品開發,這里廣泛的模型選擇為多領域的AI開發提供了堅實基礎。
-
模型獲取與查看便捷 在獲取模型方面,開發者進入魔樂社區模型庫后,可以通過篩選文本分類任務或者在搜索框輸入模型名稱的關鍵詞,定位到所需的模型上。模型卡片會展示模型的基礎信息(如任務類型、使用的AI框架等),方便開發者快速判斷是否為目標模型。單擊模型卡片即可進入模型詳情頁,查看模型所有者提供的詳細信息和操作指導。
(二)龐大的數據集資源
-
數據集種類廣泛 魔樂社區擁有7000 +高質量數據集資源,涵蓋計算機視覺、自然語言處理、多模態、通用機器學習、音頻識別等AI熱門領域。這些數據集由OpenDataLab合作提供,經過精心整理與標注,為用戶在構建更加精準、可靠的AI模型方面提供可靠的數據支撐。
-
數據管理與托管功能 社區提供數據集的托管服務。無論是用于翻譯、語音識別還是圖像分類等任務的數據集,都可以在這里找到適合的數據資源。社區為數據集管理提供了諸如數據存儲、數據查詢等功能,方便開發者與數據集進行交互,以便進行AI模型的訓練、評估和測試相關操作。
(三)易用的開發工具
-
工具兼容主流框架 魔樂社區秉持開放包容理念,支持各類深度學習開發套件,特別是已經對openMindLibrary提供支持。openMindLibrary是一個開源的深度學習開發套件,能夠支持從模型訓練到部署的全流程,原生兼容PyTorch和MindSpore等主流框架。這使得開發者無需擔心框架兼容性問題,減少開發過程中的環境配置時間與可能出現的兼容性錯誤。
-
API簡化開發任務 社區提供高易用性的API,僅需幾行代碼即可實現微調、推理等任務,快速實現開發者與研究人員的創意。開發套件的這種易用性使得開發者能夠更專注于AI模型核心算法的開發,而無需花費大量時間在底層工具開發與調試上。例如,以“星辰TeleChat_12B對話”模型為例,開發者可以在模型主頁獲取詳盡信息,并可以在頁面上方便地一鍵訪問數據集,無縫切換至體驗空間,利用工具和容器鏡像實現離線復現和應用開發。
-
開發工具加速開發流程 通過對一系列主流加速庫(如Accelerate、MindSpeed等)的支持,魔樂社區優化了模型開發的效率。這些加速庫通過優化并行算法、通信協議和顯存資源管理,顯著提升了計算效率,能大大縮短模型訓練時間,讓大模型的訓練變得更為輕松和快速。此外,社區支持多種處理器(如升騰NPU等),開發者無需修改代碼即可靈活切換計算資源,這有助于減少開發復雜性,提升資源利用效率。無論是處理大規模數據集還是進行復雜計算任務,魔樂社區的工具套件都能提供強勁后端支持。
三、魔樂社區的用戶體驗
(一)開發環境與運行支持
-
本地運行環境準備 為支持開發者在本地運行模型,社區明確列出本地開發環境要求,如支持Python3.8,并對深度學習框架有特定支持(如支持MindSpore2.3、PyTorch2.1兩大深度學習框架進行模型訓練和推理)。這有助于開發者提前準備好本地開發環境,確保模型開發和測試的順暢進行。
-
在線體驗模型訓練和推理 魔樂社區不僅提供豐富的模型資源,還支持用戶在線體驗模型的訓練和推理,這一功能極大地提升了開發效率。對于開發者而言,無需在本地下載和搭建復雜的模型訓練與推理環境,可以直接通過社區的在線平臺進行操作。同時社區還提供了一些免費可用的算力資源,例如會結合天翼云等企業的算力資源支持,依托自身智能算力布局為用戶提供高性能的計算環境,在模型訓練和推理部署時讓用戶享受流暢的計算體驗。
(二)數據上傳與倉庫管理
-
數據上傳便捷性 對于用戶想要將自己的數據集或者模型上傳到魔樂社區時,提供了清晰的指引。例如在數據集上傳方面,詳細地列出了從注冊用戶并創建Token、創建數據集倉庫,到安裝GitLFS、追蹤大型文件,并提供使用Git上傳或者openMindHubClient上傳數據集等步驟。同樣在模型上傳方面,也提供包括注冊用戶創建Token、創建模型倉庫、模型上傳的三種方式(使用Git命令上傳模型、使用openMindHubClient上傳模型、使用push_to_hub上傳模型)等詳細步驟。
-
倉庫管理功能 倉庫在魔樂社區具有存儲模型、代碼和文件的功能,同時支持用戶和組織協作開發。無論是數據倉庫還是模型倉庫,創建完成后都會自動生成一個包含對應信息的卡片(如數據集倉庫創建后有包含數據集信息的README.md 文件的數據集卡片)。用戶可以在頁面上編輯倉庫相關信息文件(如README.md 文件),以便充分展示自己上傳的數據集或模型的相關信息(如能力、約束等)。
(三)社區的交流與發展支持
-
社區運營活動助力人才成長 魔樂社區在運營層面開展多種活動助力開發者成長。例如運營過程中將會舉辦覆蓋開發全程的各類活動,像開展初級學習課程、研討交流會、高水平競技活動及巔峰挑戰賽等。這些活動以賽促學,可以吸引更多AI開發者加入社區,同時也有利于社區內成員的技術交流與提升,為開發者提供了交流、學習和創新的平臺,推動整個行業的發展。
-
推動國產化算力普及與生態發展 社區與國產化算力相結合,依托天翼云全面開放息壤平臺的智算能力,推動開發者廣泛應用國產化算力。通過這樣的結合方式,能夠助力孵化國產原生模型,為國內AI產業的發展提供本土化的優質資源與開發環境,促進AI生態繁榮,進一步加強對國家數字技術基礎設施的發展與自主可控的貢獻10。
四、魔樂社區的發展前景
-
模型與應用資源的持續增長 目前魔樂社區已經發布了5800個模型和145個應用,隨著時間推移,預計這個數字會持續增長。更多的模型和應用會吸引更多的開發者加入社區,也能吸引更多模型創建者將自己的成果分享到社區,形成一個良性的循環。
-
生態共建助力AI產業發展 在生態建設方面,2024年華為全聯接大會期間,華為聯合魔樂社區、GiteeAI社區、OpenI啟智社區等伙伴,共同啟動同心聚力·共建共贏AI產業生態共建行動。未來,魔樂社區將與更多伙伴聯合,通過技術整合、資源共享、生態共建等方式開啟AI產業生態共建的新征程。在這個過程中,魔樂社區作為其中的重要一環,將為全球的數智化轉型持續貢獻力量,可以預見魔樂社區在推動AI產業發展中將發揮越來越大的作用。