風(fēng)媽的效果展示:
第一期展示:【交作業(yè)】巨贊的RVC人聲模型效果,煉丹2個月成品展示?。。嗶哩嗶哩_bilibili
(資料圖片)
第二期展示:【交作業(yè)】挑花眼的RVC女聲模型庫,時隔一個月模型大更新?。?/p>
第三期展示:【RVC甜妹模型展示】糖果vs布甜?誰是你心中最甜的萌妹音?(直播回放無修音)
第四期展示:【交作業(yè)】7月RVC模型庫,三款模型已開源,十四款上架模型大換血~!_嗶哩嗶哩_bilibili
Notion完整版圖文更全看這里 ,更新更頻繁:
/rvc-ai-9dada6c1293145079166f2601431fe90?pvs=4
一.安裝包選擇
RVC是個開源軟件,咸魚和淘寶直接賣軟件的都是坑貨,開發(fā)者B站up:花兒不哭,實時更新的:
1.風(fēng)仔把官方完整的包上傳到百度網(wǎng)盤啦~大家自?。?/p>
百度網(wǎng)盤鏈接: /s/1dN_gYZaB-5oBKdI1_MQa2w?pwd=5hnw 提取碼: 5hnw夸克網(wǎng)盤鏈接:/s/408171a23723 無需提取碼
實時變聲下載體積最小的版本FasterRVC-RealTime-fix_【】
需要注意的是:fasterrvc版本目前處于內(nèi)測,內(nèi)置可軟kiki音頻工作室的三款開源模型(可軟kiki和關(guān)關(guān),分別對應(yīng)暖,細(xì)膩,夾三種特質(zhì)。
2.入夢大大的一鍵包,非常適合萌新快速跳線使用,也是跟隨花兒不哭原版的版本迭代的。
資源站鏈接:/archives/2476/b站教程鏈接:/video/BV1vh4y1X7gH/
二.配置參考
cpu 13600kf ?32gb 的內(nèi)存+4070ti 的顯卡,聲卡 icon micu 五代,麥克風(fēng) babybootle-u87.這套配置除了麥克風(fēng),都屬于高端性價比款,質(zhì)量不錯但不那么貴的選擇~扣緊每一個鋼镚!
如果需要高強度煉丹,建議直接拉滿或者直接云端煉丹~
麥克風(fēng)的話,風(fēng)仔用的比較貴哈。
目前這個軟件,需要至少>=4核CPU,>=GTX1060的N卡
通常情況下,實時變聲的效果好壞主要取決于CPU的性能,和顯卡無關(guān)。顯卡的品質(zhì)決定煉丹(訓(xùn)練模型)的速度而已。
10代以上的I5便可流暢運行RVC+CPU占用不高的。
影響延遲的硬件:CPU
影響音質(zhì)的硬件:麥克風(fēng),聲卡以及你的收音環(huán)境
獨立聲卡和麥克風(fēng),能夠較好的控制底噪雜音。收音比較好的耳麥效果也是不錯的,可以先用虛擬聲卡測試下,在考慮升級硬件。
三.安裝及設(shè)置
下載最新的fastrvc后解壓到本地,不包含中文的路徑中。
鏈接: /s/1dN_gYZaB-5oBKdI1_MQa2w?pwd=5hnw 提取碼: 5hnw
也可以使用入夢大大的安裝包,可以快速設(shè)置輸入輸出通道。
尋找目錄中的“go-realtime-gui”圖標(biāo),打開后是如下這個界面:
還會跳出一個黑色的命令行窗口,請無視它。
上圖中需要填寫如下幾個:
文件,軟件包內(nèi)自帶3個模型,任選一個即可,選擇對于的pth和index
同上;
四.輸入輸出通道設(shè)置(請對號入座)
1.虛擬聲卡,不走機架的安裝使用方法:voicemeeter安裝包鏈接:
鏈接: /s/1qcpyw0xo7zkX7_ILqfzM7g?pwd=d9ee 提取碼: d9ee
2.如果是獨立聲卡,走機架進行設(shè)置:
這個調(diào)試略復(fù)雜,也是目前阻礙大部分小白們成功搞事情的關(guān)鍵點,up也是在大佬的幫助下搞定的,如果自己實在搞不定,可以有償找高手調(diào)下哈~
五.參數(shù)面板設(shè)置
1.響應(yīng)閾值
盡量拉滿-60,如果有比較大的環(huán)境噪音,可以通過nvidia broadcast的ai降噪處理噪音,獨立聲卡可以接入機架的降噪插件,但是要注意如果在輸入端進行降噪,可能會出現(xiàn)吞字(也就是聲音無法很好的識別),一般建議輸入端稍微加點降噪,輸出端也稍微加點降噪,這樣實際效果會好點。請不要使用RVC軟件自帶的輸入降噪和輸出降噪,那個一刀切的比較厲害。
如果打游戲同時開英偉達降噪,游戲?qū)︼@存要求比較高的話,盡量8gb以上,不然打游戲都會卡的。需要注意的是:開了nvidia broadcast后,音色會發(fā)悶些,無法達到完美的效果。
2.音調(diào)設(shè)置
數(shù)值代表的意義:越高越女性化,越低越男性化。
男轉(zhuǎn)女一般在10~12,在這附近左右調(diào)整,分別可以變粗或變細(xì),選好之后就不要動了。
女轉(zhuǎn)男一般在-12~-10左右。
rate
index=0可以大幅度降低CPU占用率,和index比例無關(guān)和1的占用率是一樣的。
左邊是接近底模的音色,右邊是接近模型的音色。如果調(diào)高不影響口齒,可以略微調(diào)高,一般都是可以的。如果電腦配置不太好,直接拉到0,可以更流暢。如果沒有要求必須和模型音色有多像,則調(diào)0;調(diào)高可以拉進和模型目標(biāo)音色的相似度,但CPU占用和延遲會略微增加一點。
4.音高算法
不好的音高算法會經(jīng)常出現(xiàn)啞聲的情況pm對應(yīng)0416版本。延遲最低CPU占用最小。理論上唱歌效果可以,但說話效果對嘈雜環(huán)境不太好;harvest:最好的音高算法,CPU占用較大,通過調(diào)高右側(cè)"harvest進程數(shù)"降低延遲;crepe:效果接近harvest的音高算法,稍吃GPU。
5**.采樣長度(決定變聲延遲)**
盡量調(diào)低一些,只要不卡,但是需要注意如果調(diào)太低,cpu占用會很高,如果再打游戲啥的,cpu可能會吃不消。調(diào)得越高,變聲結(jié)果距離錄音時間點越遠(yuǎn);調(diào)得太低,假如最下面推理時間經(jīng)常大于變聲延遲,會造成"機關(guān)槍"卡頓情況,應(yīng)調(diào)整其他參數(shù)降低延遲或調(diào)高該參數(shù)。
進程數(shù)(核心內(nèi)容)
進程數(shù)會音響音質(zhì),如果對音質(zhì)有要求,進程數(shù)不建議大于4。
如果index=0,進程數(shù)不會太影響CPU占用率。
如果index不等于0,則CPU占用率會隨著進程數(shù)幾何倍數(shù)增加。
以13700K為例,index=0,8進程,采樣,低延遲CPU占用不到30%,但是音質(zhì)會略微有嘶啞感
index=,采樣,8進程 cpu占用100% ,4進程占用50%。
決定音高算法最高占用多少系統(tǒng)線程(最多吃多少比例CPU)如果有其他任務(wù)也要吃CPU,會影響你的工作(比如打游戲),則不宜拉太高;調(diào)低了推理延遲會增大,如果推理延遲不能滿足需求則應(yīng)拉高采樣長度,或者更換音高算法;如果推理延遲已經(jīng)能滿足變聲延遲的需求,則建議該選項進行微調(diào),越低越好。
7**.淡入淡出長度**
這個參數(shù)拉多拉少影響不大,可以根據(jù)感覺來。
8**.額外推理時長**
如硬件條件允許建議拉滿,建議至少要留1s,效果越長越好,調(diào)高了咬字識別更好。會影響延遲。
9**.推薦設(shè)置**
比較適中選擇可以根據(jù)下圖設(shè)置,再微調(diào)indexrate和采樣長度。參數(shù)設(shè)置不唯一,在使用模型的過程中可以不斷微調(diào),這也是種樂趣~(? ?_?)?
六.煉丹步驟詳解
第一步:打開(在實時變聲旁邊)進入煉丹爐;
第二步:等待網(wǎng)頁自動打開后點擊“訓(xùn)練”
第三步:填寫紅框框中的內(nèi)容
紅框框圖
1.實驗名:注意英文格式喲~比如這里填寫:”superkeruan“,煉一個超級可軟模型~2.輸入文件夾路徑:注意要把文件夾放在桌面上,且保持純英文路徑,如果不在桌面,非常容易無法讀取并報錯?。。?/p>
素材長度建議:至少30分鐘,無底噪的無損音頻(wav后綴)文件,且你用來干啥的,就用干啥的素材,比如我要用來唱歌,那么素材盡量都是唱歌的素材,這樣契合度更高~
風(fēng)仔建議這個文件夾里的文件提前用“格式工廠”進行切片處理,切成10秒一段,并且是wav的無損音頻格式,這樣方便比讓rvc自己切跑得更快速~
格式工廠切片步驟圖
3.依次點擊處理數(shù)據(jù),特征提取后設(shè)置step3的紅框部分。
4.第三步中的參數(shù)說明~
保存頻率:建議拉滿50(拉太低硬盤不夠用喲~如果拉很低,煉1個丹就需要幾十上百gb的容量存放)
總訓(xùn)練輪數(shù):200-500輪,低于100輪效果一般不太行,除非是v2底模,超過500輪如果素材數(shù)量不夠多,往往白費力氣~
每張顯卡的bitch-size:這個根據(jù)顯卡的顯存設(shè)置,風(fēng)仔12gb顯存,煉丹只敢開9gb,不然啥都干不了,一旦爆顯存,丹就白煉了~
最后點擊:一件訓(xùn)練,當(dāng)個甩手掌柜吧~
第四步:驗收環(huán)節(jié):
最終成品包含3個文件,分別是pth文件,index文件,npy文件。pth文件仔根目錄下的weights中,index和npy文件則在根目錄的logs—supersoft(實驗名文件夾)下。
(? ?_?)?好好保存,每一個成品都是顯卡努力的結(jié)晶~文件請保持英文目錄~方便每次使用~
七.融丹步驟
1.為什么需要融丹?
本質(zhì)上,rvc比sovits的優(yōu)越點,就在于底模和自煉模型的融合,在較低成本(素材和輪數(shù))上保持一個較好的效果。
融丹一方面可以讓模型的聲音的音域更加的寬廣,比如一個偏低沉的模型和一個偏嘹亮的模型,融合后就能生成一個兩邊都能get到的模型。另一方面,也可以讓音色具有多重屬性,比如可軟的暖和元氣屬性,以及kiki的細(xì)膩和委婉。融合后,會同時感覺到這些特質(zhì),可能有些比較木耳的同學(xué),不能一下子聽出來,但是當(dāng)同時聽到這些聲音的時候,就會產(chǎn)生比較明顯的對比。
演示視頻:【頂級RVC實時變聲模型展示】最暖亮和最細(xì)柔的少御音,可軟和KiKi的不同配方展示~_嗶哩嗶哩_bilibili
需要注意的是,融丹不是百分之百會提升,經(jīng)常會出現(xiàn)古神低語的現(xiàn)象,或者融合后反而音色模糊的情況,需要多次抽卡嘗試~
2.融丹步驟肢解版(? ?_?)?
打開煉丹爐(根目錄下的),點擊ckpt處理,填寫如圖內(nèi)容。
a.填寫標(biāo)號1和2處的文件路徑,請注意,包含文件名稱和后綴,且不能包含中文,否則會報錯;
b.在標(biāo)號3處選擇配方,從1:9到9:1,想怎么參和都行~后續(xù)需要在推理界面,一個一個試聽;
c.填寫標(biāo)號4處保存模型名稱,注意不帶后綴!
d.點擊標(biāo)號5處的融合按鈕。
最終標(biāo)號6處,輸出結(jié)果為成功(? ?_?)?,文件自動生成在weights目錄內(nèi),刷新推理頁面的音色,即可在下拉頁面中查看這個模型,請嚴(yán)格按照以上步驟,基本不會報錯~
八.常見問題Q&A
1.為什么模型在跑了發(fā)不出聲、有回音、復(fù)讀機、或者自己能聽到變聲其他人聽不見?
基本都是跳線問題,按照輸入輸出通道設(shè)置重新檢查一遍,或?qū)で蟠罄袔椭?/p>
2.說話好卡,是不是模型有問題?
實時卡的原因一般有幾種:
模型問題(素材太少缺字缺音色)
響應(yīng)閾值太高(輕的聲音進不來)建議都拉滿-60
麥克風(fēng)輸入音量太?。ㄔO(shè)備輸入音量盡量拉到最大,如果覺得吵可以調(diào)小輸出)。
模型問題可以用推理來排除,如果推理效果正常即可排除。
3.qq說話音條帶電,怎么回事?
QQ音條老問題,推薦解決方式:
·虛擬聲卡重啟后再試;
·其他建議同時打開常見語音軟件(YY,TT等)頻道自由麥;
4.同樣的模型其他人很好聽,我就很奇怪?
變聲除了音色以外,語氣和流暢度也是很重要的。因為監(jiān)聽有延遲,剛使用可能會有點不適應(yīng),可以調(diào)小監(jiān)聽提升流暢度。語氣問題emm…..(大老粗語氣變軟妹還是有點難度
5.煉丹后沒有index文件怎么辦?
首先重新填寫之前煉丹時相同的數(shù)據(jù)地址,然后依次操作
①點擊處理數(shù)據(jù)
②點擊特征提取
③點擊訓(xùn)練特征索引
這是就會很快的提取出來一份index文件,出現(xiàn)在你的logs文件夾下的對應(yīng)實驗名下。
九.待更新列表
已經(jīng)攢錢買到生產(chǎn)力顯卡了,感謝各位大佬的支持~
想入手一個精品模型和代煉丹的大佬,可以聯(lián)系qq501212576,本up在線接單喲~