一、魔樂社區(qū)的概念與定位
魔樂社區(qū)(Modelers)是由天翼云和華為聯(lián)合打造的開發(fā)者社區(qū),于2024年8月29日在天翼云中國行·貴州站活動現(xiàn)場上線發(fā)布。它是一個一體化開源平臺,集成了openMindLibrary和openMindHubClinet等工具套件、模型庫、數(shù)據(jù)集和體驗空間等核心組件,覆蓋自然語言處理、視覺、音頻等領(lǐng)域。 其定位是致力于聚合優(yōu)質(zhì)中文AI資源,使能AI應(yīng)用創(chuàng)新,加速伙伴商業(yè)閉環(huán),通過提供極致易用的工具鏈,端到端支持AI應(yīng)用開發(fā)的全流程。同時,結(jié)合國產(chǎn)化算力的使能,助力孵化國產(chǎn)原生模型,打造開放共享的人工智能生態(tài)社區(qū),為開發(fā)者獲取領(lǐng)先的人工智能技術(shù),構(gòu)建有競爭力和差異化的模型及應(yīng)用創(chuàng)造條件。
二、魔樂社區(qū)的資源與服務(wù)
(一)豐富的模型資源
-
模型庫資源數(shù)量可觀 魔樂社區(qū)擁有海量優(yōu)質(zhì)AI模型資源,已發(fā)布5800個模型和145個應(yīng)用。其中包括1000 +優(yōu)質(zhì)大模型,涵蓋TeleChat等主流大模型。這些模型分布在不同應(yīng)用領(lǐng)域,如自然語言處理、視覺、音頻等。開發(fā)者可以輕松找到適合自身項目需求的模型,無論是用于研究目的還是商業(yè)產(chǎn)品開發(fā),這里廣泛的模型選擇為多領(lǐng)域的AI開發(fā)提供了堅實基礎(chǔ)。
-
模型獲取與查看便捷 在獲取模型方面,開發(fā)者進(jìn)入魔樂社區(qū)模型庫后,可以通過篩選文本分類任務(wù)或者在搜索框輸入模型名稱的關(guān)鍵詞,定位到所需的模型上。模型卡片會展示模型的基礎(chǔ)信息(如任務(wù)類型、使用的AI框架等),方便開發(fā)者快速判斷是否為目標(biāo)模型。單擊模型卡片即可進(jìn)入模型詳情頁,查看模型所有者提供的詳細(xì)信息和操作指導(dǎo)。
(二)龐大的數(shù)據(jù)集資源
-
數(shù)據(jù)集種類廣泛 魔樂社區(qū)擁有7000 +高質(zhì)量數(shù)據(jù)集資源,涵蓋計算機(jī)視覺、自然語言處理、多模態(tài)、通用機(jī)器學(xué)習(xí)、音頻識別等AI熱門領(lǐng)域。這些數(shù)據(jù)集由OpenDataLab合作提供,經(jīng)過精心整理與標(biāo)注,為用戶在構(gòu)建更加精準(zhǔn)、可靠的AI模型方面提供可靠的數(shù)據(jù)支撐。
-
數(shù)據(jù)管理與托管功能 社區(qū)提供數(shù)據(jù)集的托管服務(wù)。無論是用于翻譯、語音識別還是圖像分類等任務(wù)的數(shù)據(jù)集,都可以在這里找到適合的數(shù)據(jù)資源。社區(qū)為數(shù)據(jù)集管理提供了諸如數(shù)據(jù)存儲、數(shù)據(jù)查詢等功能,方便開發(fā)者與數(shù)據(jù)集進(jìn)行交互,以便進(jìn)行AI模型的訓(xùn)練、評估和測試相關(guān)操作。
(三)易用的開發(fā)工具
-
工具兼容主流框架 魔樂社區(qū)秉持開放包容理念,支持各類深度學(xué)習(xí)開發(fā)套件,特別是已經(jīng)對openMindLibrary提供支持。openMindLibrary是一個開源的深度學(xué)習(xí)開發(fā)套件,能夠支持從模型訓(xùn)練到部署的全流程,原生兼容PyTorch和MindSpore等主流框架。這使得開發(fā)者無需擔(dān)心框架兼容性問題,減少開發(fā)過程中的環(huán)境配置時間與可能出現(xiàn)的兼容性錯誤。
-
API簡化開發(fā)任務(wù) 社區(qū)提供高易用性的API,僅需幾行代碼即可實現(xiàn)微調(diào)、推理等任務(wù),快速實現(xiàn)開發(fā)者與研究人員的創(chuàng)意。開發(fā)套件的這種易用性使得開發(fā)者能夠更專注于AI模型核心算法的開發(fā),而無需花費(fèi)大量時間在底層工具開發(fā)與調(diào)試上。例如,以“星辰TeleChat_12B對話”模型為例,開發(fā)者可以在模型主頁獲取詳盡信息,并可以在頁面上方便地一鍵訪問數(shù)據(jù)集,無縫切換至體驗空間,利用工具和容器鏡像實現(xiàn)離線復(fù)現(xiàn)和應(yīng)用開發(fā)。
-
開發(fā)工具加速開發(fā)流程 通過對一系列主流加速庫(如Accelerate、MindSpeed等)的支持,魔樂社區(qū)優(yōu)化了模型開發(fā)的效率。這些加速庫通過優(yōu)化并行算法、通信協(xié)議和顯存資源管理,顯著提升了計算效率,能大大縮短模型訓(xùn)練時間,讓大模型的訓(xùn)練變得更為輕松和快速。此外,社區(qū)支持多種處理器(如升騰NPU等),開發(fā)者無需修改代碼即可靈活切換計算資源,這有助于減少開發(fā)復(fù)雜性,提升資源利用效率。無論是處理大規(guī)模數(shù)據(jù)集還是進(jìn)行復(fù)雜計算任務(wù),魔樂社區(qū)的工具套件都能提供強(qiáng)勁后端支持。
三、魔樂社區(qū)的用戶體驗
(一)開發(fā)環(huán)境與運(yùn)行支持
-
本地運(yùn)行環(huán)境準(zhǔn)備 為支持開發(fā)者在本地運(yùn)行模型,社區(qū)明確列出本地開發(fā)環(huán)境要求,如支持Python3.8,并對深度學(xué)習(xí)框架有特定支持(如支持MindSpore2.3、PyTorch2.1兩大深度學(xué)習(xí)框架進(jìn)行模型訓(xùn)練和推理)。這有助于開發(fā)者提前準(zhǔn)備好本地開發(fā)環(huán)境,確保模型開發(fā)和測試的順暢進(jìn)行。
-
在線體驗?zāi)P陀?xùn)練和推理 魔樂社區(qū)不僅提供豐富的模型資源,還支持用戶在線體驗?zāi)P偷挠?xùn)練和推理,這一功能極大地提升了開發(fā)效率。對于開發(fā)者而言,無需在本地下載和搭建復(fù)雜的模型訓(xùn)練與推理環(huán)境,可以直接通過社區(qū)的在線平臺進(jìn)行操作。同時社區(qū)還提供了一些免費(fèi)可用的算力資源,例如會結(jié)合天翼云等企業(yè)的算力資源支持,依托自身智能算力布局為用戶提供高性能的計算環(huán)境,在模型訓(xùn)練和推理部署時讓用戶享受流暢的計算體驗。
(二)數(shù)據(jù)上傳與倉庫管理
-
數(shù)據(jù)上傳便捷性 對于用戶想要將自己的數(shù)據(jù)集或者模型上傳到魔樂社區(qū)時,提供了清晰的指引。例如在數(shù)據(jù)集上傳方面,詳細(xì)地列出了從注冊用戶并創(chuàng)建Token、創(chuàng)建數(shù)據(jù)集倉庫,到安裝GitLFS、追蹤大型文件,并提供使用Git上傳或者openMindHubClient上傳數(shù)據(jù)集等步驟。同樣在模型上傳方面,也提供包括注冊用戶創(chuàng)建Token、創(chuàng)建模型倉庫、模型上傳的三種方式(使用Git命令上傳模型、使用openMindHubClient上傳模型、使用push_to_hub上傳模型)等詳細(xì)步驟。
-
倉庫管理功能 倉庫在魔樂社區(qū)具有存儲模型、代碼和文件的功能,同時支持用戶和組織協(xié)作開發(fā)。無論是數(shù)據(jù)倉庫還是模型倉庫,創(chuàng)建完成后都會自動生成一個包含對應(yīng)信息的卡片(如數(shù)據(jù)集倉庫創(chuàng)建后有包含數(shù)據(jù)集信息的README.md 文件的數(shù)據(jù)集卡片)。用戶可以在頁面上編輯倉庫相關(guān)信息文件(如README.md 文件),以便充分展示自己上傳的數(shù)據(jù)集或模型的相關(guān)信息(如能力、約束等)。
(三)社區(qū)的交流與發(fā)展支持
-
社區(qū)運(yùn)營活動助力人才成長 魔樂社區(qū)在運(yùn)營層面開展多種活動助力開發(fā)者成長。例如運(yùn)營過程中將會舉辦覆蓋開發(fā)全程的各類活動,像開展初級學(xué)習(xí)課程、研討交流會、高水平競技活動及巔峰挑戰(zhàn)賽等。這些活動以賽促學(xué),可以吸引更多AI開發(fā)者加入社區(qū),同時也有利于社區(qū)內(nèi)成員的技術(shù)交流與提升,為開發(fā)者提供了交流、學(xué)習(xí)和創(chuàng)新的平臺,推動整個行業(yè)的發(fā)展。
-
推動國產(chǎn)化算力普及與生態(tài)發(fā)展 社區(qū)與國產(chǎn)化算力相結(jié)合,依托天翼云全面開放息壤平臺的智算能力,推動開發(fā)者廣泛應(yīng)用國產(chǎn)化算力。通過這樣的結(jié)合方式,能夠助力孵化國產(chǎn)原生模型,為國內(nèi)AI產(chǎn)業(yè)的發(fā)展提供本土化的優(yōu)質(zhì)資源與開發(fā)環(huán)境,促進(jìn)AI生態(tài)繁榮,進(jìn)一步加強(qiáng)對國家數(shù)字技術(shù)基礎(chǔ)設(shè)施的發(fā)展與自主可控的貢獻(xiàn)10。
四、魔樂社區(qū)的發(fā)展前景
-
模型與應(yīng)用資源的持續(xù)增長 目前魔樂社區(qū)已經(jīng)發(fā)布了5800個模型和145個應(yīng)用,隨著時間推移,預(yù)計這個數(shù)字會持續(xù)增長。更多的模型和應(yīng)用會吸引更多的開發(fā)者加入社區(qū),也能吸引更多模型創(chuàng)建者將自己的成果分享到社區(qū),形成一個良性的循環(huán)。
-
生態(tài)共建助力AI產(chǎn)業(yè)發(fā)展 在生態(tài)建設(shè)方面,2024年華為全聯(lián)接大會期間,華為聯(lián)合魔樂社區(qū)、GiteeAI社區(qū)、OpenI啟智社區(qū)等伙伴,共同啟動同心聚力·共建共贏AI產(chǎn)業(yè)生態(tài)共建行動。未來,魔樂社區(qū)將與更多伙伴聯(lián)合,通過技術(shù)整合、資源共享、生態(tài)共建等方式開啟AI產(chǎn)業(yè)生態(tài)共建的新征程。在這個過程中,魔樂社區(qū)作為其中的重要一環(huán),將為全球的數(shù)智化轉(zhuǎn)型持續(xù)貢獻(xiàn)力量,可以預(yù)見魔樂社區(qū)在推動AI產(chǎn)業(yè)發(fā)展中將發(fā)揮越來越大的作用。