首頁>資訊 >
所以,KTV打分是有幾個(gè)評委蹲在里面嗎? 2023-03-10 12:42:27  來源:36氪

如果你還有在KTV唱歌的“古早回憶”的話,是不是有過以下經(jīng)歷:

在KTV唱得聲淚俱下,歌曲結(jié)束系統(tǒng)評分39;飆高音飆到覺得自己鄧紫棋第二,結(jié)果機(jī)器評價(jià)說你的聲音像騰格爾。


(資料圖片僅供參考)

而你朋友鬼哭狼嚎,一個(gè)音拖老長;又或者沒有技巧,只有嗓門,但得分就是比你高。

面對占據(jù)一半屏幕的打分界面,只覺得瞬間興趣全無,只想一把關(guān)掉,安心唱歌。

而年輕一些的,不知道KTV評分(甚至KTV)為何物的朋友,可能在短視頻里刷到過這種神奇場面:本來唱得干澀難聽,打開一個(gè)叫“聲卡”的東西后,突然一鍵美聲,余音繞梁。

不知從何時(shí)開始,唱歌也跟“科技狠活”捆綁在了一起,給你打分、給你修音,說你唱得差的也是它,讓你一鍵成天籟的也是它。

作為K歌軟件重度用戶的作者深有體會。問:我唱得好聽嗎?從前,作答的是聽眾反饋;現(xiàn)在,則是屏幕上的那串分?jǐn)?shù)。仿佛只有借助這剔除了主觀因素的“第三只眼”,好與不好才有說服力。

但等等,電腦,是怎么聽懂我唱歌的?

K歌和評分是怎么走到一起的

1971 年,當(dāng)日本音樂家井上大佑帶著他制造的十臺 Juke 8卡拉OK機(jī)前往小酒館時(shí),可能并沒有想到,在不到二十年時(shí)間里,這些如電子游戲機(jī)般的鐵盒子將席卷世界,“改變亞洲的夜晚”,乃至為他贏得諾貝爾獎(jiǎng)(盡管是搞笑版的)。

改變亞洲夜晚的KTV|wikimedia commons

八十年代正是卡拉OK在日本風(fēng)靡的時(shí)候。約上三五好友,下班后高歌一曲,是當(dāng)時(shí)許多上班族釋放壓力、宣泄情緒的選擇。慢慢地,大家不再滿足于錄唱,進(jìn)而追求更高的音質(zhì)、更舒適的場地、視聽結(jié)合的享受,以及更趣味的功能——比如,卡拉OK評分。

音樂娛樂的蓬勃發(fā)展帶動生產(chǎn)商研發(fā)投入。1982 年,日本歌樂(Clarion)公司推出首款帶打分功能的家用卡拉 OK 機(jī) MW-5000A。隨著卡拉 OK 從日本傳入亞洲各國乃至全世界,評分系統(tǒng)也跟著漂洋過海,逐漸成為音樂娛樂中脫不開的一環(huán)。

卡拉OK機(jī)|wikimedia commons

不過,讓機(jī)器給人類的歌聲評分沒有那么容易。

K歌評分的主要思路是比對旋律特征,音高和節(jié)奏是兩項(xiàng)重要指標(biāo)。用戶演唱的旋律特征和原唱越相似,在機(jī)器看來則代表著“音準(zhǔn)越好”“節(jié)奏越對應(yīng)”,得分就會越高。

做到這些需要三步走:一是根據(jù)評分標(biāo)準(zhǔn),提取原曲的旋律特征,建立標(biāo)準(zhǔn)模板庫;二是通過算法提取被評分的干音(設(shè)備采集的未經(jīng)任何后期處理的人聲錄音)旋律特征;最后,把兩者特征相似度進(jìn)行量化評估,得出分?jǐn)?shù)。

K歌評分三步走

提取原曲旋律、建立標(biāo)準(zhǔn)庫,離不開指令型文件MIDI(Musical Instrument Digital Interface)。這是一種編曲界應(yīng)用最廣泛的音樂標(biāo)準(zhǔn)格式,是計(jì)算機(jī)和電子樂器通用的“語言”。與mp3、wav等波形文件不同,MIDI文件不傳輸聲音信號,而是傳遞音符、控制參數(shù)等指令,以此控制電子樂器發(fā)出適宜的聲音。

MIDI文件的編輯界面 | 開源軟件Aria Maestosa

由于MIDI是計(jì)算機(jī)可理解的“樂譜”,內(nèi)含樂曲的標(biāo)準(zhǔn)音符,算法便可以直接從其主音軌中抽取較為準(zhǔn)確的旋律信息,如標(biāo)準(zhǔn)的音高音長等。

相較MIDI的信息“直給”,用戶K歌干音的旋律特征則需要靠估算得來。首先,要把干音切為一格格短而平穩(wěn)的聲音信號,就像鐘表上一分鐘被均分成許多秒一樣;接著通過算法估計(jì)每格聲音信號的基音頻率(基音指發(fā)聲體振動中頻率最低、一般而言強(qiáng)度最大的振動,它可以決定音高),生成音高序列;此外還要消除噪音,修正可能存在的雜音、錯(cuò)音。

得出分?jǐn)?shù)前的最后一步,便是把原唱和用戶歌聲的旋律特征進(jìn)行相似度匹配。簡單粗暴的方法是直接計(jì)算兩段音高序列輪廓的余弦相似度。然而用戶歌聲的音符和原唱不一定等長,可能影響匹配準(zhǔn)確性,于是也有算法會通過線性縮放用戶歌聲音符長度后再進(jìn)行比較;或是通過延伸、縮短用戶歌聲的時(shí)間序列,使比較的兩者在時(shí)間上對齊,再計(jì)算相似度等。

你可以通過KTV打分界面上跳動的音符感受到這些步驟,歌聲驅(qū)動的光標(biāo)畫出的可以看作你的音高輪廓線。只要每個(gè)音“高度”適宜,長短合拍,機(jī)器就會獎(jiǎng)你大大的Perfect。

光標(biāo)跳動,Perfect出現(xiàn) | 作者提供

當(dāng)然,僅憑兩個(gè)指標(biāo)很難全面衡量一首歌曲的演唱質(zhì)量,系統(tǒng)所認(rèn)定的“高分”演唱在人類耳中并不一定好聽。翻翻頭部K歌軟件的相關(guān)話題,總逃不開靈魂吶喊:“我明明唱得很好,為什么分?jǐn)?shù)這么低?!”

從回答數(shù)看,大家有很多話想說 | 百度知道

人民群眾在長期實(shí)踐中甚至總結(jié)出了一套高分技巧:錄音清晰、歌聲音量大、聲音平穩(wěn)、尾音拖長,都可能讓你獲得系統(tǒng)青睞。

至于美妙音色,動情演繹?對不起,不在考慮范圍內(nèi)。

氣沉丹田?這機(jī)器也懂???

唱歌評分需要些新花樣。

2012年,在線K歌app唱吧率先把音樂娛樂挪到線上,兩年后,背靠騰訊的全民K歌也加入賽道,拉開了在線KTV獨(dú)占鰲頭的時(shí)代大幕。主打社交屬性、擁有連麥、PK等錄唱新玩法的在線K歌逐漸取代線下KTV,成為這一代年輕人的K歌首選。

K歌也PK | 作者提供

在互聯(lián)網(wǎng)公司技術(shù)實(shí)力的加持下,K歌評分進(jìn)入2.0時(shí)代。這導(dǎo)致的結(jié)果是,靠干嚎騙過機(jī)器的難度大幅提升了。

2021年前后,一些K歌軟件推出多維打分模型,除了原有的音準(zhǔn)、節(jié)奏兩項(xiàng),還新增了技巧、氣息、情感等幾個(gè)向度。

多維評分雷達(dá)圖 | 作者提供

實(shí)現(xiàn)思路是拆解各向度的特征,將其轉(zhuǎn)化為可量化的指標(biāo)。比如技巧中的顫音,這是音高在一定范圍內(nèi)出現(xiàn)的周期性變化,視覺化后反映為音高線類似正弦波形狀的上下浮動。

但現(xiàn)存算法的分辨率不如人意,于是有人想到過濾對角化(Filter Diagonalisation Method,F(xiàn)DM),一種源自量子物理,通常被用于研究分子動力學(xué)與核磁共振的算法。它能比較精確地把局部基頻分解為正弦波,并直接返回其頻率和振幅,系統(tǒng)據(jù)此判斷顫音的存在并檢測相關(guān)參數(shù)。這一跨界讓檢測準(zhǔn)確度比傳統(tǒng)方法高了一倍。

帶有顫音的頻譜圖(上)和音高輪廓圖(下),音高線抖動部分為顫音 | 參考文獻(xiàn)[4]

滑音是另一種常用的歌唱技巧。在算法里,它可以表現(xiàn)為音高線的連續(xù)滑動,即音高輪廓圖呈現(xiàn)出上行或下行的S形。由于兩端有一定的音高差并發(fā)生在有限的時(shí)間內(nèi),音高變化必然伴隨加減速,這一過程必定存在兩個(gè)拐點(diǎn)。通過這些特性找到滑音兩個(gè)端點(diǎn),即可辨認(rèn)滑音。

插圖:帶有滑音的頻譜圖(上)和音高輪廓圖(下),灰色部分是滑音 | 參考文獻(xiàn)[4]

聲樂講究的“氣沉丹田”,也在音頻工程師們的努力下有了標(biāo)準(zhǔn)。比如,一個(gè)發(fā)聲句句末的長音是否唱足了、聲音質(zhì)量好不好、前后變化程度如何,可以作為衡量歌唱?dú)庀⑹欠癯渥?、平穩(wěn)、控制得當(dāng)?shù)臉?biāo)準(zhǔn)。也有人從氣口(唱歌時(shí)的吸氣時(shí)刻)入手:如果原唱相鄰兩個(gè)音之間距離超過閾值,則設(shè)置為有氣口,據(jù)此檢測用戶是否有不合時(shí)宜的斷句或未唱滿的情況。

歌唱?dú)庀⒃u分相關(guān)專利 | 參考文獻(xiàn)[5]

情感這樣的主觀領(lǐng)域,則被音頻工程師們轉(zhuǎn)化為演唱投入程度,并用音頻能量來量化。通過測量不同時(shí)間尺度的音量特征和強(qiáng)弱起伏情況,算法便讀懂了“感情”。

沒有感情(上)與有感情(下)的演唱音頻波形圖,真實(shí)演繹“全是感情” | 參考文獻(xiàn)[6]

不過,老方法里的提取和匹配旋律特征仍然是核心,這里面也有了技術(shù)迭代。以匹配節(jié)奏為例,市面上較為流行的做法,要么是直接比對音符長短,要么是匹配干音音高輪廓與原唱的相似度,但這對漏唱、錯(cuò)音或者跑調(diào)選手來說都相當(dāng)不友好。

新提出的計(jì)算思路有點(diǎn)類似音樂游戲:首先,檢測干音中音量突然變大的點(diǎn),再輔以糾偏手段,這樣基本能判斷演唱中每個(gè)音符的起始;再根據(jù)樂曲風(fēng)格設(shè)置不同長度和權(quán)重的得分窗口,只要用戶演唱的音符起始點(diǎn)落到窗口內(nèi),就視為得分。這樣既兼顧了節(jié)奏準(zhǔn)確,又有了一定的發(fā)揮空間。

落點(diǎn)在窗口內(nèi)距離模板的音符起始點(diǎn)越近,得分就越高 | 參考文獻(xiàn)[6]

此外與老方法相比,新方法強(qiáng)調(diào)大數(shù)據(jù)的運(yùn)用和算法更新,用戶的歌聲也參與到模型的投喂和訓(xùn)練中。這使得流行音樂依然是各大算法模型評價(jià)得最準(zhǔn)的項(xiàng)目,而且越多人唱,它評得就越準(zhǔn)。

所以下回想挑戰(zhàn)機(jī)器的評分權(quán)威,你最好選首冷門歌曲。

不好聽?一鍵美音走起

更讓人欣慰的是,今天的聲音娛樂的技術(shù)已經(jīng)發(fā)展到,即便你唱歌大跑調(diào),也能一鍵成天籟,就像某些歌手一樣。

這主要通過調(diào)整干音的音準(zhǔn)、節(jié)奏、音色完成。智能修音可以把跑調(diào)、雜音的部分修飾掉,除了涉及旋律特征提取和比對,還有節(jié)奏對齊、人聲變調(diào)變速等步驟,讓你至少不跑調(diào),跟上拍。

提升或衰減人聲中的不同頻段,則能讓人聲變得悅耳。比如,適宜的40Hz-150Hz低音頻段參數(shù),能讓人聲豐滿柔和,150Hz-500Hz中低音頻段則與力度、渾厚程度有關(guān),而500Hz-2000Hz的中音頻段則能讓人聲明亮透徹——根據(jù)這些發(fā)聲特點(diǎn)進(jìn)行調(diào)整,再加上混響,原本干澀的錄音就能變得圓潤豐沛、富有穿透力。

部分K歌軟件甚至聲稱能基于用戶上傳的干音音頻得到用戶音色模型,從而在修音過程中把個(gè)人獨(dú)特的“情感“、“唱法“等也一并模擬(通過上文你應(yīng)該知道可以如何做到),得到更自然的“裸妝”效果。

柯南的萬能變聲蝴蝶結(jié)也照進(jìn)現(xiàn)實(shí)。說話者身份、性別能被區(qū)分,除了依靠基音,主要還因?yàn)楣舱穹宸植嫉牟町?。對這兩者做出改變,我們就可以實(shí)現(xiàn)音調(diào)和音色的調(diào)整。

正如當(dāng)初卡拉OK的風(fēng)靡恰逢經(jīng)濟(jì)不景氣,在剛度過的疫情三年里,歌唱讓人歡樂、讓人宣泄,讓人找到社會支持,聲音修飾也給了更多人展露歌喉的勇氣。歌聲,逐漸發(fā)展出了娛樂以外的社會意義。

而作為普通用戶的我,仍舊習(xí)慣用歌聲自娛自樂,也娛樂他人。至于唱得好聽嗎?屏幕顯示出的那串分?jǐn)?shù),也許并不那么重要。

參考文獻(xiàn)

[1]カラオケ歴史年表http://www.karaoke.or.jp/03nenpyo/#1990%E3%80%9C

[2]王佳迪. 魯棒的音樂評分方法研究[D].電子科技大學(xué),2015.

[3]Yang, L., Rajab, S. K., & Chew, E. (2016). AVA: A Graphical User Interface for Automatic Vibrato and Portamento Detection and Analysis.

[4]Yang, L. (2017).Computational modelling and analysis of vibrato and portamento in expressive music performance(Doctoral dissertation, Queen Mary University of London).

[5]江益靚. 歌唱?dú)庀⒃u分方法及裝置:.

[6]K歌中的歌唱評價(jià)與嗓音分析https://mp.weixin.qq.com/s/sjSirgHAkGT56AHmoS4zdg

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片