《狂飆》孟德海原臺(tái)詞到底是啥?看個(gè)劇還得會(huì)唇語(yǔ)? -
這個(gè)春節(jié),你《狂飆》了嗎?
這部口碑好劇,卻在昨天突然變成“亂飆”,劇情(罕見(jiàn)地)無(wú)法自圓其說(shuō)。大量的后期配音,使得
觀眾將劇情混亂歸結(jié)于后期的劇本改動(dòng),并努力讀唇語(yǔ)對(duì)口型,試圖找回原本的走向。因?yàn)檫@關(guān)系著重要任務(wù)“孟德?!笔前走€是黑,是大義滅親的好書記,還是黑社會(huì)的保護(hù)傘。
狂飆一下變亂飆,大家都猜起原劇情了
比如勸說(shuō)女婿
孟德海你到底說(shuō)了啥?。。犊耧j》
讀唇語(yǔ),讀的不止是唇
猜原劇情走向是唇讀應(yīng)用的新型場(chǎng)景。實(shí)際上,對(duì)于有聽(tīng)覺(jué)障礙的朋友來(lái)說(shuō),唇讀是一種重要的交流方式。哪怕有助聽(tīng)器的幫助,視覺(jué)輔助也可以讓他們“聽(tīng)”得更清楚。聽(tīng)力正常的人也常常會(huì)用到唇讀——想一想,在嘈雜的餐館里,為了聽(tīng)清楚別人說(shuō)的話,你是不是也會(huì)不自覺(jué)地盯著對(duì)方看。
唇讀要讀的并不止是口唇,說(shuō)話人的肌肉活動(dòng)和面部表情也會(huì)提供許多信息;聽(tīng)者將這些視覺(jué)信息與大腦中儲(chǔ)存的詞語(yǔ)相聯(lián)系和比較,從而理解說(shuō)話人的語(yǔ)義。
說(shuō)是“理解”,但在實(shí)際操作中卻可能是“誤解”,許多因素都會(huì)影響唇讀的正確率。例如,以聾校學(xué)生為對(duì)象的幾項(xiàng)研究發(fā)現(xiàn),讀出韻母比讀出聲母更容易;而對(duì)于/a/、/i/、/e/這樣的不圓唇音,判斷正確率則比/o/、/u/、/ü/這樣的圓唇音更高。
僅僅判斷單個(gè)聲母或韻母已經(jīng)很難了,研究顯示準(zhǔn)確率通常僅為50%~70%。實(shí)際場(chǎng)景中的應(yīng)用更復(fù)雜:漢語(yǔ)里的4個(gè)聲調(diào),無(wú)法通過(guò)口唇形狀判斷;上下文的聯(lián)系,需要讀唇語(yǔ)的人靠語(yǔ)言理解能力和判斷推理能力自行推測(cè)。
唇讀是聾校教學(xué)的內(nèi)容之一,需要的不僅是視覺(jué)感受能力和語(yǔ)言理解能力,還有培養(yǎng)判斷推理能力;而且需要注意力高度集中才能完成。既然人工學(xué)習(xí)困難重重,那人工智能能不能助一臂之力呢?
AI讀唇語(yǔ)
準(zhǔn)確率高達(dá)93.4%?
在學(xué)唇語(yǔ)上,AI確實(shí)已經(jīng)比普通人牛掰不少了。2016年11月,牛津大學(xué)訓(xùn)練了一個(gè)AI,叫Lipnet。Lipnet在唇讀測(cè)試中達(dá)到了93.4%的準(zhǔn)確度,遠(yuǎn)遠(yuǎn)把人類52.3%的成績(jī)甩在身后;而且,它還能幾乎實(shí)時(shí)地將無(wú)聲視頻處理成文本。
AI怎么識(shí)別唇語(yǔ)呢?它先從圖像中識(shí)別出人臉,提取人說(shuō)話時(shí)口型變化的特征,通過(guò)嘴型特征來(lái)識(shí)別音素。音素是最小的語(yǔ)音單位,例如漢語(yǔ)中的韻母/a/就是一個(gè)音素,AI可以依據(jù)不同的發(fā)音動(dòng)作來(lái)分析音素。識(shí)別口型對(duì)應(yīng)的發(fā)音后,AI可以進(jìn)一步識(shí)別單詞、句子,再將這些詞句放在大數(shù)據(jù)里搜索,來(lái)判斷哪個(gè)更可能是人會(huì)講出的話。例如,“我是天才”還是“我是甜菜”,大數(shù)據(jù)會(huì)證明,前者的可能性更大。
Lipnet的表現(xiàn)看起來(lái)很不錯(cuò),但其實(shí),它更像是一個(gè)只會(huì)一項(xiàng)指定動(dòng)作的AI。訓(xùn)練Lipnet的數(shù)據(jù)集有嚴(yán)重的局限性,這個(gè)數(shù)據(jù)集里雖然有成千上萬(wàn)個(gè)短視頻,但視頻高度相似——都是統(tǒng)一由志愿者念的,每個(gè)視頻只有3秒鐘,連打光都差不多。更“作弊”的是,每個(gè)句子都遵循以下的模式:
命令+顏色+介詞+字母+數(shù)字+副詞
Place red at C zero again
Set blue by A four please
這樣的傻瓜句型讓AI能快速掌握規(guī)律。所以,即便測(cè)試的結(jié)果很不錯(cuò),也有很多人不買帳。
仍在進(jìn)化的唇讀AI
在Lipnet面世的不久后,牛津大學(xué)(又是它?。┖凸雀杵煜卵芯咳斯ぶ悄艿腄eepmind合作開發(fā),推出了另一個(gè)AI。這個(gè)AI識(shí)別唇語(yǔ)的準(zhǔn)確率為46.8%,而在同一項(xiàng)測(cè)試?yán)铮瑢I(yè)唇讀者的準(zhǔn)確率只有12.4%。
捕捉口型的變化來(lái)識(shí)別語(yǔ)句 | 參考文獻(xiàn) [1]
準(zhǔn)確率降低了?并不是,相比于溫室花朵的Lipnet,這個(gè)AI算是野戰(zhàn)選手。訓(xùn)練它的數(shù)據(jù)集來(lái)自BBC上千個(gè)小時(shí)的政治視頻,這里有不同的人、不同的口音和不同的打光,識(shí)別難度上了好幾個(gè)臺(tái)階。研究者認(rèn)為,它是在“野生”環(huán)境里摸爬滾打出來(lái)的,表現(xiàn)已經(jīng)非常出色。
谷歌Deepmind聯(lián)合開發(fā)的AI實(shí)時(shí)識(shí)別新聞中的唇語(yǔ)|參考文獻(xiàn) [1]
國(guó)內(nèi)也有類似的讀唇語(yǔ)軟件。2017年,搜狗推出了可以識(shí)別中文唇語(yǔ)的AI。搜狗AI開放平臺(tái)表示,他們的唇語(yǔ)識(shí)別在口語(yǔ)測(cè)試集上的準(zhǔn)確率超過(guò)60%;在車載、智能家居的場(chǎng)景里,可以達(dá)到90%的準(zhǔn)確率。不過(guò)最近兩年,國(guó)內(nèi)外關(guān)于讀唇語(yǔ)AI的研究尚未有突破性的進(jìn)展。
一只成熟的唇語(yǔ)識(shí)別AI,在未來(lái)可以有很多應(yīng)用。
在背景音嘈雜的環(huán)境中,它可以準(zhǔn)確識(shí)別對(duì)方在說(shuō)什么,不管對(duì)方有沒(méi)有發(fā)出聲音。如果我們想在安靜的公共場(chǎng)合用語(yǔ)音交流,或者想偷偷使喚siri定個(gè)時(shí)、放首歌,甚至為了保密而只動(dòng)口型,都可以用唇語(yǔ)識(shí)別。
唇語(yǔ)識(shí)別也可以應(yīng)用在身份認(rèn)證中?,F(xiàn)在的人臉識(shí)別系統(tǒng),可能會(huì)被帶有人像的圖片、視頻蒙混過(guò)關(guān);如果能將人臉識(shí)別和口令密碼相結(jié)合,并采用唇語(yǔ)識(shí)別技術(shù)進(jìn)行檢測(cè),安全性將會(huì)大為提高。
當(dāng)然, 對(duì)于好不容易看到一部劇情在線、演員在線的電視劇,唇語(yǔ)識(shí)別AI恐怕還是圓了劇粉心中“最精彩的故事線”。
可惜的是,經(jīng)過(guò)一番搜索,我們?nèi)晕凑业侥軌蚪o任意視頻識(shí)別唇語(yǔ)的理想AI。所以,拜托科技公司搞快點(diǎn),咱看點(diǎn)劇容易嗎!
相關(guān)資訊
評(píng)論
- 評(píng)論加載中...