一、天譜樂的基本情況
天譜樂是趣丸科技旗下唱鴨團隊推出的全球首個多模態音樂生成大模型 。它集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識別算法等多項先進技術,能夠在長序列音樂語意建模和高質量音頻空間建模方面實現技術突破,從而還原音樂音頻在高維空間的連續信號表征 。用戶僅需上傳相冊中的一張圖片或一段不超過60秒的視頻,即可生成與高度適配畫面的帶人聲唱詞的完整歌曲,其生成效果達到唱片發行級水準,并且還可以支持多種語言、多種曲風的生成 。
天譜樂大模型的功能多樣。比如它具有音頻生音樂的功能,用戶點擊幾個音符或簡單哼唱,就可以得到一首歌;在圖片/視頻生音樂方面表現出色,能生成與之高度匹配的BGM,并呈現30秒MV效果;提供個性化音樂創作體驗,用戶通過上傳文本、圖片或視頻,可生成最長3.5分鐘的歌曲或音樂;還擁有高契合度視頻配樂功能,基于自研的畫面情緒理解模型等領先技術,可以逐幀識別和理解視頻畫面的明暗、色彩、情緒的細微變化并生成高契合度的視頻配樂;它能夠理解音樂的和弦、旋律、歌詞、演唱風格等復雜特征,且生成的人聲效果非常接近真實人類的發音,無論是發音的清晰度還是語句的停頓,與真人無異;提供專家模式,對于專業人士,天譜樂提供了包括風格、和弦、BPM等專業選項,有更高的創作自由度;并且還提供音樂編輯功能,對生成的音樂進行編輯和調整以滿足創作需求,如今已全面接入趣丸科技旗下唱鴨APP,面向所有用戶開放 。
二、唱鴨團隊介紹
唱鴨團隊致力于打造音樂相關的產品,以獨特的方式讓用戶與音樂進行互動。
唱鴨App是一款具有創新性的音樂應用,它抓住了彈唱這個切入點,為年輕人提供了新穎的音樂體驗 。在唱鴨上,即使是不會任何樂器的用戶,也可以通過不同顏色、不同位置的圖標提示實現自彈自唱。與傳統唱歌App不同的是,唱鴨只選取歌曲中的某一片段,用戶通過選擇樂器 + 清唱 + 鼓點 + 音效,就可以完成一個屬于自己的原創曲目 。
唱鴨團隊注重用戶需求,不斷優化產品功能并且積極探索新的發展方向。從最初的只擁有吉他和鋼琴兩種樂器,到現在已經擁有尤克里里、管弦樂、B - BOX、放克電鋼等十幾種流行樂器或伴奏音,還準備為用戶提供更多創作工具,如利用一些歌曲中常見的和弦走向來進行歌曲創作,甚至考慮推出工具幫助用戶實現與明星之間的和聲等,以此來降低普通人參與到音樂創作中的門檻,將半創作性的能力賦予給普通人 [7]。
唱鴨App的用戶群體主要為年輕人,其中超八成用戶為00后。它在沒有做大規模推廣的情況下,就獲得了年輕群體的喜愛,憑借獨特的玩法和對年輕用戶需求的把握,上線半年以來MAU(月活)都保持了月均超180%的增幅,平均用戶使用時長為20分鐘,在年輕人群中有著很高的接受度 。這種受眾和影響力也為天譜樂的推廣奠定了良好的用戶基礎。
三、多模態音樂生成大模型的特點
(一)多模態輸入能力
-
文本輸入 天譜樂能夠理解用戶輸入的文字內容,用戶輸入創作想法相關的文字描述后,它可以準確地把握用戶的創作意圖,從而生成符合需求的音樂作品。例如輸入“寫一首關于孫悟空的歌,曲風比較激烈和戰斗”,天譜樂就能生成一首搖滾風格且歌詞帶有齊天大圣、誰與爭鋒等貼合孫悟空戰斗畫面的歌曲。并且對于抽象和寬泛的文本描述,像是“創作一首空靈的歌曲,展現人類的渺小”,也能生成富有意境的音樂作品。同時,在文本生曲時還提供專家模式,有風格、和弦、BPM等專業選項,為專業人士提供更高的創作自由度 。
-
圖片與視頻輸入 這是天譜樂的一項開創性功能,早于國外同類產品Suno三個月推出。它首創了能夠根據圖片或者視頻生成音樂的功能。對于圖片輸入,模型能夠識別圖片中的各種元素、色彩、氛圍等信息,基于這些信息生成與之相匹配的音樂。視頻輸入方面,基于自研的畫面情緒理解模型等領先技術,它不僅可以根據視頻畫面的明暗、色彩、情緒的細微變化逐幀識別和理解,然后生成與視頻高度適配的帶人聲唱詞的完整歌曲。這種多模態輸入的特點滿足了不同用戶對于音樂創作靈感來源的多樣性需求,也大大拓展了音樂創作的邊界 。
(二)對音樂特征的理解與生成能力
-
音樂復雜特征理解 天譜樂具有理解音樂中多種復雜特征的能力,如和弦、旋律、歌詞、演唱風格等。這意味著它在生成音樂時會考慮到這些方面,使生成的音樂不僅在整體結構上合理,而且在細節上更符合音樂的專業要求和審美標準。
-
生成能力多樣化 既能生成曲風豐富的純音樂,也能夠生成包含人聲唱詞的完整歌曲,歌曲最長可達到3.5分鐘。再加上多種曲風的支持(包括中英文數十種曲風),可以滿足不同用戶對不同音樂類型的喜好和需求 。
(三)技術與性能的優勢
-
多項先進算法集成 天譜樂集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識別算法等多項先進技術。這些算法在各自的功能模塊上發揮著關鍵作用,共同實現了從不同模態信息輸入到音樂生成的復雜轉換過程。例如圖片理解算法能夠分析圖片的視覺信息,為音樂生成提供靈感依據,旋律生成算法確保生成的旋律符合音樂規律等。
-
技術突破實現高質量輸出 可以在長序列音樂語意建模和高質量音頻空間建模方面實現技術突破,從而還原音樂音頻在高維空間的連續信號表征,這就使得生成的音樂在音質和音樂語義表達上達到較高的水準,生成效果能夠達到唱片發行級水準,生成的人聲效果也非常接近真實人類的發音,無論是發音的清晰度還是語句的停頓,都與真人無異 。
四、天譜樂的應用場景
(一)對于普通用戶
-
個人創意表達與音樂創作體驗 天譜樂為廣大普通用戶打開了音樂創作的大門,無論是否有音樂基礎,都可以借助這個模型進行音樂創作。用戶可以通過輸入自己的想法(文本)、回憶(圖片)或者生活片段(視頻)生成屬于自己的歌曲,表達個人情感和創意。例如在生活中的某個瞬間看到美麗的風景(可以拍攝為視頻或者照片),通過天譜樂就能生成一首反映當時心境的音樂,實現獨特的創意表達和個性化的音樂創作體驗。并且由于其操作簡單,降低了音樂創作的門檻,讓更多的普通用戶能夠享受音樂創作的樂趣 。
-
唱鴨APP中的應用拓展 天譜樂全面接入趣丸科技旗下的唱鴨APP,這為唱鴨的用戶帶來了更豐富的功能。唱鴨原本就是一款吸引年輕人的音樂社交類應用,天譜樂的接入使得唱鴨用戶能夠在APP中利用其功能創作音樂,一方面用戶可以在APP中分享自己創作的音樂作品,實現社交互動;另一方面,對于原本在唱鴨上只進行彈唱、演唱部分的用戶,有了新的創作維度,可以從更多元的角度參與到音樂創作中來,提升用戶對唱鴨APP的粘性和使用體驗 。
(二)對于專業音樂人
-
提升創作效率 在音樂創作過程中,尋找靈感和制作小樣等環節往往需要花費大量的時間。天譜樂可以根據專業音樂人輸入的文本描述快速生成音樂作品,為他們在創作初期提供靈感來源或者快速制作出可供參考的小樣。比如作曲家可以輸入某段音樂的風格描述、情感表達等文字內容,快速獲得一首相應風格的音樂小樣,然后在這個基礎上進行修改和完善,這種方式大大節省了創作時間,提升了創作效率 。
-
豐富創作手段 其多模態輸入功能,尤其是圖片和視頻生成音樂的功能為專業音樂人提供了新的創作手段。例如在為影視創作配樂時,音樂人可以根據影片的片段、畫面色彩、情緒氛圍等元素,使用天譜樂根據視頻生成音樂的功能,由此獲得與畫面貼合度較高的音樂靈感或者配樂初稿,再進行細致的音樂創作打磨,使得音樂與影視畫面的結合更加緊密,也為音樂創作開拓了新的創作思路和方向 。
(三)在影視、廣告、游戲等領域
-
定制化音樂制作 這些領域往往對音樂有特殊的定制化需求,需要音樂能夠精確地配合畫面內容、情節發展或者產品形象等。天譜樂可以利用其多模態輸入功能和對畫面情緒等的理解能力,快速為影視、廣告、游戲等生成定制化的音樂。例如在游戲開發中,針對不同的游戲場景(如緊張的戰斗場景、神秘的探索場景等),可以輸入相應的游戲場景畫面或者描述文字,以生成與之匹配的音樂,增強游戲的沉浸感;在影視制作中,可以根據影片的情節、畫面色調等因素快速生成與之相適應的音樂,提升影片的整體質感;在廣告制作中,為產品塑造特定的音樂氛圍,提升產品形象和廣告效果 [20][22]。
-
降低制作成本和提高制作速度 傳統的音樂制作需要音樂人花費大量的時間從素材創作開始,到不斷地調整以適配相應的項目內容。天譜樂能夠快速生成符合要求的音樂,減少了人力投入和制作周期,從而達到降低制作成本的目的。同時,它的快速生成能力在面對緊張的項目時間表時,可以提高整個制作過程的速度,保證項目按時完成或是更快地推出產品上市,以適應市場競爭的周期和需求 。
五、天譜樂與其他音樂生成模型的比較
(一)與字節跳動豆包旗下海綿音樂對比
-
公司背景與模型定位方面
-
字節跳動是大型科技公司,海綿音樂作為其旗下的音樂生成模型,依托字節跳動強大的技術資源和平臺影響力進行發展,覆蓋的領域可能更廣泛,且在整體的科技布局中有其特定的戰略意義。而趣丸天譜樂是由趣丸科技推出,趣丸科技在音樂、音頻領域有深入的耕耘,尤其旗下有TT語音等產品積累了大量用戶,天譜樂更多地從垂直的音樂領域出發,專注于音樂創作相關功能的開發與優化。
-
-
功能特性差異
-
輸入模態:天譜樂憑借多模態輸入中圖片和視頻生成音樂的首創功能脫穎而出,這一功能為沒有音樂基礎的普通用戶提供了直觀的、可視化的音樂創作入口。而海綿音樂目前沒有資料表明有類似的獨特優勢,可能更多的是在常規的文本、音頻等輸入方式下的音樂生成。
-
生成結果針對性:由于天譜樂在畫面理解上的先進技術,如基于自研的畫面情緒理解模型,生成的音樂在與視頻畫面的契合度方面表現優秀,特別適合短視頻配樂等需要畫面與音樂高度匹配的場景。對于海綿音樂,沒有證據顯示在這方面有特殊的針對性優化。
-
-
應用場景覆蓋的區別
-
天譜樂已經在唱鴨APP上得到應用,并且在輔助短視頻創作者創造背景音樂方面表現出色,同時由于其技術特點在影視、游戲等定制化音樂制作場景中有很好的應用前景。海綿音樂由于字節跳動的多元化業務布局,可能適用于字節跳動旗下多個平臺的綜合應用場景,但在垂直的音樂創作社交領域(如唱鴨APP這類)以及針對畫面配樂的精準性上可能沒有天譜樂那么專注。
-
(二)與昆侖萬維旗下的天工SkyMusic對比
-
模型主體特性差異
-
多模態能力挖掘深度:天譜樂不僅具有基本的多模態音樂生成能力,而且在畫面情緒理解(如視頻畫面的明暗、色彩、情緒的細微變化逐幀識別和理解)等方面技術領先,并且生成的音樂在曲風、歌詞、演唱風格等多方面能實現精準匹配。天工SkyMusic雖然也是一個音樂生成大模型,但目前沒有資料顯示其在多模態與音樂生成結合的深度方面不輸于天譜樂。
-
對用戶分層的適用設計:天譜樂提供了專家模式,對于專業音樂人可提供風格、和弦、BPM等專業選項,提升專業創作自由度,同時針對普通用戶又有較低的操作門檻,可以滿足不同層次用戶的需求。天工SkyMusic可能沒有像天譜樂這樣有明確的針對不同用戶層次的功能區分設計。
-
-
商業化應用側重不同
-
天譜樂因為其依托的趣丸科技在音樂、音頻領域的長期積累,特別是在TT語音積累的大量用戶基礎,在商業化的道路上更加側重于與自身業務相關的音樂創作社交場景,例如在唱鴨APP中的全面接入。而天工SkyMusic更多地作為昆侖萬維旗下的新興大模型廠商所推出的產品,可能在商業化上會側重于整個市場的不同板塊全面覆蓋,與天譜樂相比在特定領域(如唱鴨APP所在的音樂創作社交圈)的應用黏性可能較弱。
-
(三)與國外同類產品Suno比較
-
創新性領先程度
-
天譜樂的圖片和視頻生成音樂功能比國外同類產品Suno早推出3個月,這體現了在創新性上的先發優勢,能夠更早地吸引用戶和占領市場。而且在功能實現的質量上,比如根據視頻畫面生成音樂的質量(從畫面情緒理解到音樂音樂的精準生成等方面)已經達到了較高的水平,可以和Suno這類國際產品競爭。
-
-
本地化及用戶基礎差異
-
天譜樂依托趣丸科技在國內的積累,例如其在國內的社交平臺的用戶導入(如TT語音積累的超2億注冊用戶),在本地化服務、了解國內用戶需求和習慣方面有先天優勢。Suno主要從國際市場角度出發,可能在對國內的音樂創作市場喜好(如曲風流行趨勢、歌詞文化內涵等)的把握上不如天譜樂精準,并且在國內的市場推廣沒有天譜樂背后的趣丸科技那么強大的用戶資源支撐。
-