如果你還有在KTV唱歌的“古早回憶”的話,是不是有過以下經(jīng)歷:
在KTV唱得聲淚俱下,歌曲結束系統(tǒng)評分39;飆高音飆到覺得自己鄧紫棋第二,結果機器評價說你的聲音像騰格爾。
(資料圖片僅供參考)
而你朋友鬼哭狼嚎,一個音拖老長;又或者沒有技巧,只有嗓門,但得分就是比你高。
面對占據(jù)一半屏幕的打分界面,只覺得瞬間興趣全無,只想一把關掉,安心唱歌。
而年輕一些的,不知道KTV評分(甚至KTV)為何物的朋友,可能在短視頻里刷到過這種神奇場面:本來唱得干澀難聽,打開一個叫“聲卡”的東西后,突然一鍵美聲,余音繞梁。
不知從何時開始,唱歌也跟“科技狠活”捆綁在了一起,給你打分、給你修音,說你唱得差的也是它,讓你一鍵成天籟的也是它。
作為K歌軟件重度用戶的作者深有體會。問:我唱得好聽嗎?從前,作答的是聽眾反饋;現(xiàn)在,則是屏幕上的那串分數(shù)。仿佛只有借助這剔除了主觀因素的“第三只眼”,好與不好才有說服力。
但等等,電腦,是怎么聽懂我唱歌的?
K歌和評分是怎么走到一起的
1971 年,當日本音樂家井上大佑帶著他制造的十臺 Juke 8卡拉OK機前往小酒館時,可能并沒有想到,在不到二十年時間里,這些如電子游戲機般的鐵盒子將席卷世界,“改變亞洲的夜晚”,乃至為他贏得諾貝爾獎(盡管是搞笑版的)。
改變亞洲夜晚的KTV|wikimedia commons
八十年代正是卡拉OK在日本風靡的時候。約上三五好友,下班后高歌一曲,是當時許多上班族釋放壓力、宣泄情緒的選擇。慢慢地,大家不再滿足于錄唱,進而追求更高的音質、更舒適的場地、視聽結合的享受,以及更趣味的功能——比如,卡拉OK評分。
音樂娛樂的蓬勃發(fā)展帶動生產(chǎn)商研發(fā)投入。1982 年,日本歌樂(Clarion)公司推出首款帶打分功能的家用卡拉 OK 機 MW-5000A。隨著卡拉 OK 從日本傳入亞洲各國乃至全世界,評分系統(tǒng)也跟著漂洋過海,逐漸成為音樂娛樂中脫不開的一環(huán)。
卡拉OK機|wikimedia commons
不過,讓機器給人類的歌聲評分沒有那么容易。
K歌評分的主要思路是比對旋律特征,音高和節(jié)奏是兩項重要指標。用戶演唱的旋律特征和原唱越相似,在機器看來則代表著“音準越好”“節(jié)奏越對應”,得分就會越高。
做到這些需要三步走:一是根據(jù)評分標準,提取原曲的旋律特征,建立標準模板庫;二是通過算法提取被評分的干音(設備采集的未經(jīng)任何后期處理的人聲錄音)旋律特征;最后,把兩者特征相似度進行量化評估,得出分數(shù)。
K歌評分三步走
提取原曲旋律、建立標準庫,離不開指令型文件MIDI(Musical Instrument Digital Interface)。這是一種編曲界應用最廣泛的音樂標準格式,是計算機和電子樂器通用的“語言”。與mp3、wav等波形文件不同,MIDI文件不傳輸聲音信號,而是傳遞音符、控制參數(shù)等指令,以此控制電子樂器發(fā)出適宜的聲音。
MIDI文件的編輯界面 | 開源軟件Aria Maestosa
由于MIDI是計算機可理解的“樂譜”,內含樂曲的標準音符,算法便可以直接從其主音軌中抽取較為準確的旋律信息,如標準的音高音長等。
相較MIDI的信息“直給”,用戶K歌干音的旋律特征則需要靠估算得來。首先,要把干音切為一格格短而平穩(wěn)的聲音信號,就像鐘表上一分鐘被均分成許多秒一樣;接著通過算法估計每格聲音信號的基音頻率(基音指發(fā)聲體振動中頻率最低、一般而言強度最大的振動,它可以決定音高),生成音高序列;此外還要消除噪音,修正可能存在的雜音、錯音。
得出分數(shù)前的最后一步,便是把原唱和用戶歌聲的旋律特征進行相似度匹配。簡單粗暴的方法是直接計算兩段音高序列輪廓的余弦相似度。然而用戶歌聲的音符和原唱不一定等長,可能影響匹配準確性,于是也有算法會通過線性縮放用戶歌聲音符長度后再進行比較;或是通過延伸、縮短用戶歌聲的時間序列,使比較的兩者在時間上對齊,再計算相似度等。
你可以通過KTV打分界面上跳動的音符感受到這些步驟,歌聲驅動的光標畫出的可以看作你的音高輪廓線。只要每個音“高度”適宜,長短合拍,機器就會獎你大大的Perfect。
光標跳動,Perfect出現(xiàn) | 作者提供
當然,僅憑兩個指標很難全面衡量一首歌曲的演唱質量,系統(tǒng)所認定的“高分”演唱在人類耳中并不一定好聽。翻翻頭部K歌軟件的相關話題,總逃不開靈魂吶喊:“我明明唱得很好,為什么分數(shù)這么低?!”
從回答數(shù)看,大家有很多話想說 | 百度知道
人民群眾在長期實踐中甚至總結出了一套高分技巧:錄音清晰、歌聲音量大、聲音平穩(wěn)、尾音拖長,都可能讓你獲得系統(tǒng)青睞。
至于美妙音色,動情演繹?對不起,不在考慮范圍內。
氣沉丹田?這機器也懂???
唱歌評分需要些新花樣。
2012年,在線K歌app唱吧率先把音樂娛樂挪到線上,兩年后,背靠騰訊的全民K歌也加入賽道,拉開了在線KTV獨占鰲頭的時代大幕。主打社交屬性、擁有連麥、PK等錄唱新玩法的在線K歌逐漸取代線下KTV,成為這一代年輕人的K歌首選。
K歌也PK | 作者提供
在互聯(lián)網(wǎng)公司技術實力的加持下,K歌評分進入2.0時代。這導致的結果是,靠干嚎騙過機器的難度大幅提升了。
2021年前后,一些K歌軟件推出多維打分模型,除了原有的音準、節(jié)奏兩項,還新增了技巧、氣息、情感等幾個向度。
多維評分雷達圖 | 作者提供
實現(xiàn)思路是拆解各向度的特征,將其轉化為可量化的指標。比如技巧中的顫音,這是音高在一定范圍內出現(xiàn)的周期性變化,視覺化后反映為音高線類似正弦波形狀的上下浮動。
但現(xiàn)存算法的分辨率不如人意,于是有人想到過濾對角化(Filter Diagonalisation Method,F(xiàn)DM),一種源自量子物理,通常被用于研究分子動力學與核磁共振的算法。它能比較精確地把局部基頻分解為正弦波,并直接返回其頻率和振幅,系統(tǒng)據(jù)此判斷顫音的存在并檢測相關參數(shù)。這一跨界讓檢測準確度比傳統(tǒng)方法高了一倍。
帶有顫音的頻譜圖(上)和音高輪廓圖(下),音高線抖動部分為顫音 | 參考文獻[4]
滑音是另一種常用的歌唱技巧。在算法里,它可以表現(xiàn)為音高線的連續(xù)滑動,即音高輪廓圖呈現(xiàn)出上行或下行的S形。由于兩端有一定的音高差并發(fā)生在有限的時間內,音高變化必然伴隨加減速,這一過程必定存在兩個拐點。通過這些特性找到滑音兩個端點,即可辨認滑音。
插圖:帶有滑音的頻譜圖(上)和音高輪廓圖(下),灰色部分是滑音 | 參考文獻[4]
聲樂講究的“氣沉丹田”,也在音頻工程師們的努力下有了標準。比如,一個發(fā)聲句句末的長音是否唱足了、聲音質量好不好、前后變化程度如何,可以作為衡量歌唱氣息是否充足、平穩(wěn)、控制得當?shù)臉藴?。也有人?strong>氣口(唱歌時的吸氣時刻)入手:如果原唱相鄰兩個音之間距離超過閾值,則設置為有氣口,據(jù)此檢測用戶是否有不合時宜的斷句或未唱滿的情況。
歌唱氣息評分相關專利 | 參考文獻[5]
情感這樣的主觀領域,則被音頻工程師們轉化為演唱投入程度,并用音頻能量來量化。通過測量不同時間尺度的音量特征和強弱起伏情況,算法便讀懂了“感情”。
沒有感情(上)與有感情(下)的演唱音頻波形圖,真實演繹“全是感情” | 參考文獻[6]
不過,老方法里的提取和匹配旋律特征仍然是核心,這里面也有了技術迭代。以匹配節(jié)奏為例,市面上較為流行的做法,要么是直接比對音符長短,要么是匹配干音音高輪廓與原唱的相似度,但這對漏唱、錯音或者跑調選手來說都相當不友好。
新提出的計算思路有點類似音樂游戲:首先,檢測干音中音量突然變大的點,再輔以糾偏手段,這樣基本能判斷演唱中每個音符的起始;再根據(jù)樂曲風格設置不同長度和權重的得分窗口,只要用戶演唱的音符起始點落到窗口內,就視為得分。這樣既兼顧了節(jié)奏準確,又有了一定的發(fā)揮空間。
落點在窗口內距離模板的音符起始點越近,得分就越高 | 參考文獻[6]
此外與老方法相比,新方法強調大數(shù)據(jù)的運用和算法更新,用戶的歌聲也參與到模型的投喂和訓練中。這使得流行音樂依然是各大算法模型評價得最準的項目,而且越多人唱,它評得就越準。
所以下回想挑戰(zhàn)機器的評分權威,你最好選首冷門歌曲。
不好聽?一鍵美音走起
更讓人欣慰的是,今天的聲音娛樂的技術已經(jīng)發(fā)展到,即便你唱歌大跑調,也能一鍵成天籟,就像某些歌手一樣。
這主要通過調整干音的音準、節(jié)奏、音色完成。智能修音可以把跑調、雜音的部分修飾掉,除了涉及旋律特征提取和比對,還有節(jié)奏對齊、人聲變調變速等步驟,讓你至少不跑調,跟上拍。
而提升或衰減人聲中的不同頻段,則能讓人聲變得悅耳。比如,適宜的40Hz-150Hz低音頻段參數(shù),能讓人聲豐滿柔和,150Hz-500Hz中低音頻段則與力度、渾厚程度有關,而500Hz-2000Hz的中音頻段則能讓人聲明亮透徹——根據(jù)這些發(fā)聲特點進行調整,再加上混響,原本干澀的錄音就能變得圓潤豐沛、富有穿透力。
部分K歌軟件甚至聲稱能基于用戶上傳的干音音頻得到用戶音色模型,從而在修音過程中把個人獨特的“情感“、“唱法“等也一并模擬(通過上文你應該知道可以如何做到),得到更自然的“裸妝”效果。
柯南的萬能變聲蝴蝶結也照進現(xiàn)實。說話者身份、性別能被區(qū)分,除了依靠基音,主要還因為共振峰分布的差異。對這兩者做出改變,我們就可以實現(xiàn)音調和音色的調整。
正如當初卡拉OK的風靡恰逢經(jīng)濟不景氣,在剛度過的疫情三年里,歌唱讓人歡樂、讓人宣泄,讓人找到社會支持,聲音修飾也給了更多人展露歌喉的勇氣。歌聲,逐漸發(fā)展出了娛樂以外的社會意義。
而作為普通用戶的我,仍舊習慣用歌聲自娛自樂,也娛樂他人。至于唱得好聽嗎?屏幕顯示出的那串分數(shù),也許并不那么重要。
參考文獻
[1]カラオケ歴史年表http://www.karaoke.or.jp/03nenpyo/#1990%E3%80%9C
[2]王佳迪. 魯棒的音樂評分方法研究[D].電子科技大學,2015.
[3]Yang, L., Rajab, S. K., & Chew, E. (2016). AVA: A Graphical User Interface for Automatic Vibrato and Portamento Detection and Analysis.
[4]Yang, L. (2017).Computational modelling and analysis of vibrato and portamento in expressive music performance(Doctoral dissertation, Queen Mary University of London).
[5]江益靚. 歌唱氣息評分方法及裝置:.
[6]K歌中的歌唱評價與嗓音分析https://mp.weixin.qq.com/s/sjSirgHAkGT56AHmoS4zdg
關鍵詞:
- 所以,KTV打分是有幾個評委蹲在里面嗎?
- 當前滾動:最炫中國風!這支雙語宣傳片是懂中國的
- 天天看點:我從基層來丨全國政協(xié)委員魏新:助推殘疾人高等職業(yè)教育高質量發(fā)展
- 【天天播資訊】主播說聯(lián)播丨“番茄村支書”在代表駐地四處敲門,在忙啥?
- 讓高校畢業(yè)生“就好業(yè)”需多方合力 1158萬背后的就業(yè)關切
- 天天熱消息:【學習小組】趙樂際當選為第十四屆全國人大常委會委員長
- 熱門看點:超30家品牌“花式”打折!新車降價潮撲面而來 寒流還是熱浪?
- 每日資訊:泰和新材:公司芳綸涂覆中試線正在調試之中 整體進度符合公司預定目標 與下游客戶的接觸也在進行之中
- 中電興發(fā):公司業(yè)務中有涉及IT運維的部分
- 世界觀熱點:威海開展汽車促消費活動 購新能源車最高補貼6000元
- 上游315丨豪華型酒店“大床房”變“雙床拼接房” 律師:侵犯消費者選擇權
- 銀邦股份:接受中郵基金調研
- 全球熱點!三種人不能打加強針(三種人不能打加強針)
- 屏蔽(屏蔽是什么意思)
- 2023家用投影儀推薦|大眼橙X6、極米NEW Z8X、極米Z6X Pro、當貝D5X投影儀哪款更好
- 天天快報!2023年3月10日起首都機場北京南站線發(fā)車時刻表
- 2023年德陽市事業(yè)單位招聘報名時間及方法
- 世界今日訊!2023年德陽市事業(yè)單位招聘報名入口
- 【環(huán)球時快訊】誰都得罪不起:左右為難的美國巨頭
- 世界觀察:美參議員:“毒列車”事故信息披露不透明 民眾活在恐懼中
- 低碳菜單引領寧波餐飲消費新風尚 試點將持續(xù)至今
- 深圳坪山打造餐飲服務食品安全示范高地 嚴守食品
- 黑龍江哈爾濱推出“沙盒”監(jiān)管新模式 激發(fā)市場活
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對機動車檢測機構開展監(jiān)督抽查 規(guī)范機動
- 天津北辰扎實做好價格監(jiān)管工作 維護安全有序市場
- 北京石景山開展冬季供暖前特種設備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡直播營銷治理顯成效 培育放心消費直