亚洲精品永久精品,又黄又硬又色又湿视频网,香蕉视频黄版

首頁>資訊 >

所以，KTV打分是有幾個評委蹲在里面嗎？ 2023-03-10 12:42:27　　來源：36氪

如果你還有在KTV唱歌的“古早回憶”的話，是不是有過以下經(jīng)歷：

在KTV唱得聲淚俱下，歌曲結(jié)束系統(tǒng)評分39；飆高音飆到覺得自己鄧紫棋第二，結(jié)果機(jī)器評價說你的聲音像騰格爾。

(資料圖片僅供參考)

而你朋友鬼哭狼嚎，一個音拖老長；又或者沒有技巧，只有嗓門，但得分就是比你高。

面對占據(jù)一半屏幕的打分界面，只覺得瞬間興趣全無，只想一把關(guān)掉，安心唱歌。

而年輕一些的，不知道KTV評分（甚至KTV）為何物的朋友，可能在短視頻里刷到過這種神奇場面：本來唱得干澀難聽，打開一個叫“聲卡”的東西后，突然一鍵美聲，余音繞梁。

不知從何時開始，唱歌也跟“科技狠活”捆綁在了一起，給你打分、給你修音，說你唱得差的也是它，讓你一鍵成天籟的也是它。

作為K歌軟件重度用戶的作者深有體會。問：我唱得好聽嗎？從前，作答的是聽眾反饋；現(xiàn)在，則是屏幕上的那串分?jǐn)?shù)。仿佛只有借助這剔除了主觀因素的“第三只眼”，好與不好才有說服力。

但等等，電腦，是怎么聽懂我唱歌的？

K歌和評分是怎么走到一起的

1971 年，當(dāng)日本音樂家井上大佑帶著他制造的十臺 Juke 8卡拉OK機(jī)前往小酒館時，可能并沒有想到，在不到二十年時間里，這些如電子游戲機(jī)般的鐵盒子將席卷世界，“改變亞洲的夜晚”，乃至為他贏得諾貝爾獎（盡管是搞笑版的）。

改變亞洲夜晚的KTV｜wikimedia commons

八十年代正是卡拉OK在日本風(fēng)靡的時候。約上三五好友，下班后高歌一曲，是當(dāng)時許多上班族釋放壓力、宣泄情緒的選擇。慢慢地，大家不再滿足于錄唱，進(jìn)而追求更高的音質(zhì)、更舒適的場地、視聽結(jié)合的享受，以及更趣味的功能——比如，卡拉OK評分。

音樂娛樂的蓬勃發(fā)展帶動生產(chǎn)商研發(fā)投入。1982 年，日本歌樂（Clarion）公司推出首款帶打分功能的家用卡拉 OK 機(jī) MW-5000A。隨著卡拉 OK 從日本傳入亞洲各國乃至全世界，評分系統(tǒng)也跟著漂洋過海，逐漸成為音樂娛樂中脫不開的一環(huán)。

卡拉OK機(jī)｜wikimedia commons

不過，讓機(jī)器給人類的歌聲評分沒有那么容易。

K歌評分的主要思路是比對旋律特征，音高和節(jié)奏是兩項重要指標(biāo)。用戶演唱的旋律特征和原唱越相似，在機(jī)器看來則代表著“音準(zhǔn)越好”“節(jié)奏越對應(yīng)”，得分就會越高。

做到這些需要三步走：一是根據(jù)評分標(biāo)準(zhǔn)，提取原曲的旋律特征，建立標(biāo)準(zhǔn)模板庫；二是通過算法提取被評分的干音（設(shè)備采集的未經(jīng)任何后期處理的人聲錄音）旋律特征；最后，把兩者特征相似度進(jìn)行量化評估，得出分?jǐn)?shù)。

K歌評分三步走

提取原曲旋律、建立標(biāo)準(zhǔn)庫，離不開指令型文件MIDI（Musical Instrument Digital Interface）。這是一種編曲界應(yīng)用最廣泛的音樂標(biāo)準(zhǔn)格式，是計算機(jī)和電子樂器通用的“語言”。與mp3、wav等波形文件不同，MIDI文件不傳輸聲音信號，而是傳遞音符、控制參數(shù)等指令，以此控制電子樂器發(fā)出適宜的聲音。

MIDI文件的編輯界面 | 開源軟件Aria Maestosa

由于MIDI是計算機(jī)可理解的“樂譜”，內(nèi)含樂曲的標(biāo)準(zhǔn)音符，算法便可以直接從其主音軌中抽取較為準(zhǔn)確的旋律信息，如標(biāo)準(zhǔn)的音高音長等。

相較MIDI的信息“直給”，用戶K歌干音的旋律特征則需要靠估算得來。首先，要把干音切為一格格短而平穩(wěn)的聲音信號，就像鐘表上一分鐘被均分成許多秒一樣；接著通過算法估計每格聲音信號的基音頻率（基音指發(fā)聲體振動中頻率最低、一般而言強(qiáng)度最大的振動，它可以決定音高），生成音高序列；此外還要消除噪音，修正可能存在的雜音、錯音。

得出分?jǐn)?shù)前的最后一步，便是把原唱和用戶歌聲的旋律特征進(jìn)行相似度匹配。簡單粗暴的方法是直接計算兩段音高序列輪廓的余弦相似度。然而用戶歌聲的音符和原唱不一定等長，可能影響匹配準(zhǔn)確性，于是也有算法會通過線性縮放用戶歌聲音符長度后再進(jìn)行比較；或是通過延伸、縮短用戶歌聲的時間序列，使比較的兩者在時間上對齊，再計算相似度等。

你可以通過KTV打分界面上跳動的音符感受到這些步驟，歌聲驅(qū)動的光標(biāo)畫出的可以看作你的音高輪廓線。只要每個音“高度”適宜，長短合拍，機(jī)器就會獎你大大的Perfect。

光標(biāo)跳動，Perfect出現(xiàn) | 作者提供

當(dāng)然，僅憑兩個指標(biāo)很難全面衡量一首歌曲的演唱質(zhì)量，系統(tǒng)所認(rèn)定的“高分”演唱在人類耳中并不一定好聽。翻翻頭部K歌軟件的相關(guān)話題，總逃不開靈魂吶喊：“我明明唱得很好，為什么分?jǐn)?shù)這么低？！”

從回答數(shù)看，大家有很多話想說 | 百度知道

人民群眾在長期實踐中甚至總結(jié)出了一套高分技巧：錄音清晰、歌聲音量大、聲音平穩(wěn)、尾音拖長，都可能讓你獲得系統(tǒng)青睞。

至于美妙音色，動情演繹？對不起，不在考慮范圍內(nèi)。

氣沉丹田？這機(jī)器也懂啊？

唱歌評分需要些新花樣。

2012年，在線K歌app唱吧率先把音樂娛樂挪到線上，兩年后，背靠騰訊的全民K歌也加入賽道，拉開了在線KTV獨占鰲頭的時代大幕。主打社交屬性、擁有連麥、PK等錄唱新玩法的在線K歌逐漸取代線下KTV，成為這一代年輕人的K歌首選。

K歌也PK | 作者提供

在互聯(lián)網(wǎng)公司技術(shù)實力的加持下，K歌評分進(jìn)入2.0時代。這導(dǎo)致的結(jié)果是，靠干嚎騙過機(jī)器的難度大幅提升了。

2021年前后，一些K歌軟件推出多維打分模型，除了原有的音準(zhǔn)、節(jié)奏兩項，還新增了技巧、氣息、情感等幾個向度。

多維評分雷達(dá)圖 | 作者提供

實現(xiàn)思路是拆解各向度的特征，將其轉(zhuǎn)化為可量化的指標(biāo)。比如技巧中的顫音，這是音高在一定范圍內(nèi)出現(xiàn)的周期性變化，視覺化后反映為音高線類似正弦波形狀的上下浮動。

但現(xiàn)存算法的分辨率不如人意，于是有人想到過濾對角化（Filter Diagonalisation Method，F(xiàn)DM），一種源自量子物理，通常被用于研究分子動力學(xué)與核磁共振的算法。它能比較精確地把局部基頻分解為正弦波，并直接返回其頻率和振幅，系統(tǒng)據(jù)此判斷顫音的存在并檢測相關(guān)參數(shù)。這一跨界讓檢測準(zhǔn)確度比傳統(tǒng)方法高了一倍。

帶有顫音的頻譜圖（上）和音高輪廓圖（下），音高線抖動部分為顫音 | 參考文獻(xiàn)[4]

滑音是另一種常用的歌唱技巧。在算法里，它可以表現(xiàn)為音高線的連續(xù)滑動，即音高輪廓圖呈現(xiàn)出上行或下行的S形。由于兩端有一定的音高差并發(fā)生在有限的時間內(nèi)，音高變化必然伴隨加減速，這一過程必定存在兩個拐點。通過這些特性找到滑音兩個端點，即可辨認(rèn)滑音。

插圖：帶有滑音的頻譜圖（上）和音高輪廓圖（下），灰色部分是滑音 | 參考文獻(xiàn)[4]

聲樂講究的“氣沉丹田”，也在音頻工程師們的努力下有了標(biāo)準(zhǔn)。比如，一個發(fā)聲句句末的長音是否唱足了、聲音質(zhì)量好不好、前后變化程度如何，可以作為衡量歌唱氣息是否充足、平穩(wěn)、控制得當(dāng)?shù)臉?biāo)準(zhǔn)。也有人從氣口（唱歌時的吸氣時刻）入手：如果原唱相鄰兩個音之間距離超過閾值，則設(shè)置為有氣口，據(jù)此檢測用戶是否有不合時宜的斷句或未唱滿的情況。

歌唱氣息評分相關(guān)專利 | 參考文獻(xiàn)[5]

情感這樣的主觀領(lǐng)域，則被音頻工程師們轉(zhuǎn)化為演唱投入程度，并用音頻能量來量化。通過測量不同時間尺度的音量特征和強(qiáng)弱起伏情況，算法便讀懂了“感情”。

沒有感情（上）與有感情（下）的演唱音頻波形圖，真實演繹“全是感情” | 參考文獻(xiàn)[6]

不過，老方法里的提取和匹配旋律特征仍然是核心，這里面也有了技術(shù)迭代。以匹配節(jié)奏為例，市面上較為流行的做法，要么是直接比對音符長短，要么是匹配干音音高輪廓與原唱的相似度，但這對漏唱、錯音或者跑調(diào)選手來說都相當(dāng)不友好。

新提出的計算思路有點類似音樂游戲：首先，檢測干音中音量突然變大的點，再輔以糾偏手段，這樣基本能判斷演唱中每個音符的起始；再根據(jù)樂曲風(fēng)格設(shè)置不同長度和權(quán)重的得分窗口，只要用戶演唱的音符起始點落到窗口內(nèi)，就視為得分。這樣既兼顧了節(jié)奏準(zhǔn)確，又有了一定的發(fā)揮空間。

落點在窗口內(nèi)距離模板的音符起始點越近，得分就越高 | 參考文獻(xiàn)[6]

此外與老方法相比，新方法強(qiáng)調(diào)大數(shù)據(jù)的運(yùn)用和算法更新，用戶的歌聲也參與到模型的投喂和訓(xùn)練中。這使得流行音樂依然是各大算法模型評價得最準(zhǔn)的項目，而且越多人唱，它評得就越準(zhǔn)。

所以下回想挑戰(zhàn)機(jī)器的評分權(quán)威，你最好選首冷門歌曲。

不好聽？一鍵美音走起

更讓人欣慰的是，今天的聲音娛樂的技術(shù)已經(jīng)發(fā)展到，即便你唱歌大跑調(diào)，也能一鍵成天籟，就像某些歌手一樣。

這主要通過調(diào)整干音的音準(zhǔn)、節(jié)奏、音色完成。智能修音可以把跑調(diào)、雜音的部分修飾掉，除了涉及旋律特征提取和比對，還有節(jié)奏對齊、人聲變調(diào)變速等步驟，讓你至少不跑調(diào)，跟上拍。

而提升或衰減人聲中的不同頻段，則能讓人聲變得悅耳。比如，適宜的40Hz-150Hz低音頻段參數(shù)，能讓人聲豐滿柔和，150Hz-500Hz中低音頻段則與力度、渾厚程度有關(guān)，而500Hz-2000Hz的中音頻段則能讓人聲明亮透徹——根據(jù)這些發(fā)聲特點進(jìn)行調(diào)整，再加上混響，原本干澀的錄音就能變得圓潤豐沛、富有穿透力。

部分K歌軟件甚至聲稱能基于用戶上傳的干音音頻得到用戶音色模型，從而在修音過程中把個人獨特的“情感“、“唱法“等也一并模擬（通過上文你應(yīng)該知道可以如何做到），得到更自然的“裸妝”效果。

柯南的萬能變聲蝴蝶結(jié)也照進(jìn)現(xiàn)實。說話者身份、性別能被區(qū)分，除了依靠基音，主要還因為共振峰分布的差異。對這兩者做出改變，我們就可以實現(xiàn)音調(diào)和音色的調(diào)整。

正如當(dāng)初卡拉OK的風(fēng)靡恰逢經(jīng)濟(jì)不景氣，在剛度過的疫情三年里，歌唱讓人歡樂、讓人宣泄，讓人找到社會支持，聲音修飾也給了更多人展露歌喉的勇氣。歌聲，逐漸發(fā)展出了娛樂以外的社會意義。

而作為普通用戶的我，仍舊習(xí)慣用歌聲自娛自樂，也娛樂他人。至于唱得好聽嗎？屏幕顯示出的那串分?jǐn)?shù)，也許并不那么重要。

參考文獻(xiàn)

[1]カラオケ歴史年表http://www.karaoke.or.jp/03nenpyo/#1990%E3%80%9C

[2]王佳迪. 魯棒的音樂評分方法研究[D].電子科技大學(xué),2015.

[3]Yang, L., Rajab, S. K., & Chew, E. (2016). AVA: A Graphical User Interface for Automatic Vibrato and Portamento Detection and Analysis.

[4]Yang, L. (2017).Computational modelling and analysis of vibrato and portamento in expressive music performance(Doctoral dissertation, Queen Mary University of London).

[5]江益靚. 歌唱氣息評分方法及裝置:.

[6]K歌中的歌唱評價與嗓音分析https://mp.weixin.qq.com/s/sjSirgHAkGT56AHmoS4zdg

關(guān)鍵詞：

相關(guān)閱讀：