

AI百科
5℃MME-CoT:港中文等機構(gòu)聯(lián)合推出的多模態(tài)視覺推理評估框架
本文詳細介紹了由港中文等機構(gòu)聯(lián)合推出的 MME-CoT 基準框架,解析其在多模態(tài)模型鏈式思維推理能力評估中的功能與技術(shù)原理。文章涵蓋 MME-CoT 的核心優(yōu)勢、應用場景以及對 AI 研究和行業(yè)發(fā)展的深遠影響,為研究人員和開發(fā)
4℃MeteoRA:南京大學推出高效可擴展的多任務嵌入框架
MeteoRA是由南京大學計算機科學與技術(shù)系研究團隊開發(fā)的高效多任務嵌入框架,基于LoRA和MoE架構(gòu),實現(xiàn)參數(shù)復用和自主任務切換。本文將詳細介紹MeteoRA的技術(shù)原理、核心功能及應用場景,幫助讀者全面了解其優(yōu)勢和潛力。
3℃MagicArticulate:南洋理工與字節(jié)跳動聯(lián)手打造的3D動畫化革命工具
MagicArticulate是由南洋理工大學和字節(jié)跳動Seed實驗室聯(lián)合開發(fā)的靜態(tài)3D模型轉(zhuǎn)骨架生成框架,能夠自動將靜態(tài)3D模型轉(zhuǎn)換為可動畫化的資產(chǎn)。基于自回歸Transformer模型和Articulation-XL數(shù)據(jù)集,MagicArticulate在骨架生成
4℃Llasa TTS:香港科技大學開源的先進文本轉(zhuǎn)語音模型
本文深入解析了 Llasa TTS 的核心功能、技術(shù)原理及應用場景,幫助開發(fā)者和用戶更好地了解這一創(chuàng)新工具,助力語音合成技術(shù)的廣泛應用。
5℃IndexTTS – B 站推出的文本轉(zhuǎn)語音模型,支持拼音糾正漢字發(fā)音
B站推出的 IndexTTS 是一款工業(yè)級可控文本轉(zhuǎn)語音(TTS)系統(tǒng),憑借其強大的中文處理能力和創(chuàng)新的技術(shù),正在重新定義語音合成領(lǐng)域。本文將深入解析 IndexTTS 的核心功能、技術(shù)原理及其在多個領(lǐng)域的應用場景,幫助讀者全面了解其
2℃LazyLLM:引領(lǐng)AI應用開發(fā)新時代,打造高效、靈活的多智能體應用
LazyLLM 是一款由商湯大裝置開源的低代碼AI開發(fā)平臺,專為開發(fā)者設計,旨在簡化復雜AI應用的開發(fā)流程。無論是初學者還是專業(yè)開發(fā)者,都能通過LazyLLM快速構(gòu)建高效、靈活的多智能體應用。本文將詳細介紹LazyLLM的核心功能、
2℃FlashMLA:DeepSeek開源的高效MLA解碼內(nèi)核,專為NVIDIA Hopper GPU設計
FlashMLA是由DeepSeek開源的高效MLA(Multi-Head Linear Attention)解碼內(nèi)核,專為NVIDIA Hopper架構(gòu)GPU設計,適用于大語言模型和自然語言處理任務。本文將詳細介紹FlashMLA的核心功能、技術(shù)優(yōu)勢、使用方法及應用場景,幫助開
4℃Flame:開源多模態(tài)前端代碼生成模型,助力高效開發(fā)!
Flame是一款開源的多模態(tài)AI模型,專注于將UI設計截圖轉(zhuǎn)換為高質(zhì)量的現(xiàn)代前端代碼。它通過創(chuàng)新的數(shù)據(jù)合成方法和結(jié)構(gòu)化訓練流程,解決了傳統(tǒng)模型生成靜態(tài)代碼的局限性,支持動態(tài)交互、組件化開發(fā)和高代碼質(zhì)量。Flame在GitHub
4℃FantasyID:身份保持視頻生成框架,革新虛擬形象與數(shù)字人技術(shù)
FantasyID是一款由阿里巴巴集團和北京郵電大學聯(lián)合推出的創(chuàng)新身份保持視頻生成框架,結(jié)合3D面部幾何先驗和擴散變換器技術(shù),生成高質(zhì)量、身份一致的動態(tài)視頻。本文將詳細介紹FantasyID的技術(shù)原理、核心功能及其在虛擬社交
4℃FacePoke:實時面部編輯工具,輕松打造栩栩如生的圖片!
FacePoke是一款基于AI技術(shù)的開源實時面部編輯工具,支持用戶通過簡單的拖拽操作調(diào)整面部表情和頭部姿勢。本文將詳細介紹FacePoke的功能、技術(shù)原理、應用場景以及如何使用,幫助用戶更好地利用這一工具進行內(nèi)容創(chuàng)作。
3℃AIGC和AGI是什么意思?官方正式發(fā)布AI相關(guān)術(shù)語規(guī)范,一文搞懂!
隨著人工智能的快速發(fā)展,AIGC、AGI等新術(shù)語頻繁出現(xiàn)在公眾視野中。然而,由于缺乏統(tǒng)一的中文譯名,許多人對這些術(shù)語感到困惑。近日,教育部正式公布了第十六批外語詞中文譯名,對AIGC、AGI等AI相關(guān)術(shù)語進行了官方規(guī)范。本文將
1℃AIGC如何革新劇集制作流程?騰訊在線視頻劉羽案例解析
本文詳細解析了騰訊在線視頻如何通過AIGC技術(shù)革新劇集制作流程,從創(chuàng)意開發(fā)到視覺預演,再到風格轉(zhuǎn)繪,AIGC技術(shù)在各個環(huán)節(jié)中發(fā)揮重要作用。通過具體案例,如《慶余年》和《斗羅大陸》的制作過程,展示了AIGC如何提升制作效率、
1℃BFS-Prover:字節(jié)跳動推出的新一代自動定理證明系統(tǒng)
BFS-Prover是由字節(jié)跳動豆包大模型團隊開發(fā)的創(chuàng)新性自動定理證明系統(tǒng),它結(jié)合了改進的廣度優(yōu)先搜索算法、專家迭代框架和分布式架構(gòu),為數(shù)學定理證明領(lǐng)域帶來了革命性的突破。本文將深入解析BFS-Prover的技術(shù)特點、應用場
1℃Claude 3.7 Sonnet:全球首款混合推理模型,重新定義AI能力
Claude 3.7 Sonnet 是 Anthropic 公司推出的全球首款混合推理模型,具備“標準模式”和“擴展思考模式”兩種運行方式。本文將深入解析其功能、性能及應用場景,幫助開發(fā)者和企業(yè)用戶更好地了解這一創(chuàng)新工具。
2℃DeepEP:專為 MoE 模型設計的高效通信庫,助力訓練與推理效率提升
DeepEP 是 DeepSeek 開源的首個專為混合專家模型(MoE)設計的通信庫,提供高效、低延遲的 GPU 通信解決方案。支持 FP8 低精度計算,優(yōu)化組限制門控算法,適用于大規(guī)模模型訓練和推理任務。本文將詳細介紹 DeepEP 的功能、性能
2℃DeepGEMM:DeepSeek開源的高效FP8矩陣乘法庫,助力AI計算性能突破
DeepGEMM是DeepSeek開源的高效FP8矩陣乘法庫,專為NVIDIA Hopper架構(gòu)設計,支持普通和分組GEMM操作。通過即時編譯技術(shù)、細粒度縮放和雙級累加機制,DeepGEMM在性能和精度上實現(xiàn)突破,助力AI模型訓練與推理。本文詳細解析其功
3℃DualPipe:DeepSeek開源的雙向流水線并行技術(shù),助力AI模型高效訓練
DualPipe是DeepSeek開源的一款創(chuàng)新性雙向流水線并行技術(shù),通過將模型的前向傳播和反向傳播解耦為獨立的管道并行執(zhí)行,顯著提升了大規(guī)模深度學習模型的訓練效率。本文將深入解析DualPipe的技術(shù)原理、優(yōu)勢及其應用場景,幫助
2℃EPLB:DeepSeek開源的專家并行負載均衡器,提升模型訓練效率
EPLB(Expert Parallelism Load Balancer)是DeepSeek開源的專家并行負載均衡器,專為解決大規(guī)模模型訓練中的負載不均問題而設計。通過冗余專家策略、層次化負載均衡和全局負載均衡模式,EPLB顯著提升GPU資源利用率和訓練效
3℃通古大模型:華南理工古籍AI工具的革新與應用
通古大模型是由華南理工大學深度學習與視覺計算實驗室開發(fā)的專注于古籍文言文處理的人工智能語言模型。本文將詳細介紹其功能、技術(shù)原理、應用場景以及對古籍數(shù)字化和文化傳承的深遠影響。
3℃騰訊混元T1深度思考模型:解鎖AI新可能
騰訊混元T1是騰訊混元推出的最新深度思考模型,專注于邏輯推理和深度思考,支持聯(lián)網(wǎng)搜索功能,能從互聯(lián)網(wǎng)信源、微信公眾號、視頻號等騰訊生態(tài)內(nèi)容中獲取信息,確保回答的時新性和權(quán)威性。本文將詳細介紹T1的主要功能、應用場
2℃X-R1:基于強化學習的低成本訓練框架,重新定義AI開發(fā)模式
X-R1是一款基于強化學習的低成本訓練框架,專為加速大規(guī)模語言模型的后訓練開發(fā)而設計。通過優(yōu)化硬件配置和分布式訓練技術(shù),X-R1能夠在短時間內(nèi)以極低的成本完成模型訓練,適用于多種AI應用場景。本文將詳細介紹X-R1的功能
1℃WiseDiag醫(yī)療大模型:革新醫(yī)療AI的未來
本文詳細解析WiseDiag醫(yī)療大模型的功能、版本、定價和技術(shù)優(yōu)勢,探討其在醫(yī)療領(lǐng)域的應用場景和未來潛力。
0℃WebLI-100B:Google DeepMind推出1000億視覺語言數(shù)據(jù)集,助力多模態(tài)AI發(fā)展
Google DeepMind最新推出WebLI-100B數(shù)據(jù)集,包含1000億圖像-文本對,是目前規(guī)模最大的視覺語言數(shù)據(jù)集之一。本文將深度解析WebLI-100B的技術(shù)原理、應用場景及其對AI研究的深遠影響,幫助您全面了解這一突破性數(shù)據(jù)集的價值。
2℃TIGER:清華大學研發(fā)的輕量級語音分離模型,開啟高效語音處理新時代
TIGER 是清華大學研究團隊開發(fā)的一款創(chuàng)新性語音分離模型,以其輕量級設計和高效性能在語音處理領(lǐng)域脫穎而出。本文將深入解析 TIGER 的技術(shù)原理、核心功能及其在多個場景中的實際應用,幫助讀者全面了解這一前沿 AI 工具
3℃Social Media Agent:AI驅(qū)動的社交媒體內(nèi)容管理工具,輕松實現(xiàn)自動化內(nèi)容發(fā)布
Social Media Agent是一款強大的AI社交媒體內(nèi)容管理工具,通過輸入URL自動生成高質(zhì)量的社交媒體帖子。支持Twitter和LinkedIn平臺,結(jié)合自然語言處理和網(wǎng)頁抓取技術(shù),幫助用戶高效管理社交媒體內(nèi)容,提升品牌影響力和用戶互動