作者:王劍白
1962年,美國(guó)西雅圖舉辦了第二十一屆“萬(wàn)國(guó)博覽會(huì)”,也就是我們現(xiàn)在稱呼的“世博會(huì)”,這一屆主題為“太空中的人類”,全方位展示了人類借助宇宙飛船進(jìn)行環(huán)球飛行的航天壯舉,也標(biāo)志著航天時(shí)代的來臨。
會(huì)場(chǎng)的標(biāo)志性建筑“太空針”,是一個(gè)立在細(xì)細(xì)長(zhǎng)長(zhǎng)金屬上面的飛碟,引發(fā)出某個(gè)膾炙人口的笑話:那是地球毀滅之日,美國(guó)總統(tǒng)逃往宇宙的飛船。此外,會(huì)場(chǎng)最受歡迎的展館是波音公司的“太空館”,可以讓觀眾體驗(yàn)10分鐘虛擬遨游銀河系的旅程,不少孩子參觀之后萌生了“太空夢(mèng)”。
但同時(shí),“明日生活”是本次世博會(huì)的隱性主題,大量預(yù)言和幻想在展出:未來的廚房里只需要按下各種按鈕,就可以為家人準(zhǔn)備晚餐;將來的電話上有個(gè)按鈕,按下就可以看到對(duì)方的臉;以后不需要種植大豆,就可以在工廠里合成各種豆制品……
在各種概念展示中,我們熟悉的IT巨頭IBM拿出了一個(gè)代號(hào)叫“鞋盒”的機(jī)器,它能理解人類口述數(shù)字0-9以及簡(jiǎn)單的運(yùn)算口令,成為當(dāng)時(shí)世界上最先進(jìn)的語(yǔ)音識(shí)別機(jī)器,在今天看來如此基礎(chǔ)的功能,已經(jīng)是那個(gè)時(shí)代的“機(jī)械降神”了。
這個(gè)“鞋盒”,可以說是語(yǔ)音交互的起點(diǎn),但從“鞋盒”到“智能音箱”,中間走過了漫漫長(zhǎng)路。
先有軟件,再有硬件
智能語(yǔ)音交互,一直以來都是人工智能業(yè)界重點(diǎn)攻關(guān)方向,讓機(jī)器明白你在說什么,是人類夢(mèng)寐以求的事。此外,在機(jī)械、按鍵、觸屏之后,語(yǔ)音被視為人機(jī)交互下一階段的主流,因?yàn)槿说摹罢f話”是最自然、最快速、最低成本的交流方式(再往后可能是腦電波),發(fā)展智能語(yǔ)音,可以讓人類更加輕松便捷地進(jìn)行生活生產(chǎn)。
從AI對(duì)話的流程來看,主要分為四個(gè)技術(shù)模塊:自動(dòng)語(yǔ)音識(shí)別(ASR)、自然語(yǔ)言理解(NLU)、自然語(yǔ)言生成(NLG)、文字轉(zhuǎn)語(yǔ)音(TTS),合并為AI人機(jī)對(duì)話系統(tǒng)框架,形成一個(gè)完整的對(duì)話流??梢钥吹剑@流程上的每一個(gè)環(huán)節(jié),都是人工智能高難度領(lǐng)域,因此,在IBM的“鞋盒”之后三十多年的1990,才出現(xiàn)了第一款語(yǔ)音識(shí)別產(chǎn)品Dragon Systems,售價(jià)6000美元,明顯沒法實(shí)現(xiàn)消費(fèi)層面的普及,概念意義遠(yuǎn)大于實(shí)際意義。
2010年后,隨著算力增長(zhǎng)與技術(shù)突破,語(yǔ)音助手進(jìn)入密集爆發(fā)期,其中最為人熟知的是蘋果的Siri、谷歌的Google Now、微軟的Cortana等,與此同時(shí),芯片等算力硬件性能提升、體型縮小,及家庭wifi的進(jìn)一步普及,讓功能強(qiáng)大的語(yǔ)音助手能夠棲身于更適合家庭場(chǎng)景的設(shè)備,“智能音箱”應(yīng)運(yùn)而生。
2014年7月9日,亞馬遜發(fā)布語(yǔ)音助手Alexa和智能音箱the Amazon Echo,一開始,這種產(chǎn)品并不被人所看好,因?yàn)閷?shí)用度確實(shí)不高,只能用來聽音樂、問天氣、查詢亞馬遜產(chǎn)品價(jià)格等,但隨著智能家居進(jìn)一步普及,越來越多的設(shè)備開始與Echo連接,智能音箱逐漸成為家庭的控制中樞。2017年,Alexa在美國(guó)的功能已經(jīng)超過10000種,大大豐富了Echo的適用范圍,也完成了用戶教育。
巨頭很快意識(shí)到這是一片面向消費(fèi)者的藍(lán)海,而且“占據(jù)入口”比“單品消費(fèi)”的意義更大,因此谷歌、微軟、三星都推出了自己的智能音箱設(shè)備,可以看到,雖然智能音箱是人工智能技術(shù)集成的產(chǎn)物,但一開始并不以AI作為售賣點(diǎn),更多是作為一個(gè)便捷的信息獲取設(shè)備,這時(shí)候的對(duì)話系統(tǒng)依然是一板一眼的。
就是在這樣的背景下,2017年5月4日,百度推出了自己旗下的首款消費(fèi)級(jí)人工智能設(shè)備“渡鴉”,但根據(jù)百度官方口徑,真正意義上的全自研產(chǎn)品,是在這一年后發(fā)布的“小度在家”。
小度的前世今生
按照“先有軟件,再有硬件”的邏輯,小度的前世是百度旗下AI語(yǔ)音助手“度秘”。2013年,李彥宏和王海峰認(rèn)為搜索的下一個(gè)入口是語(yǔ)音,但是語(yǔ)音需要一個(gè)更加具象的應(yīng)用,一開始,百度希望把自身的語(yǔ)音技術(shù)集成為一個(gè)智能秘書,這就是2015年“度秘”問世的由來。
今天,我們的語(yǔ)音對(duì)話已經(jīng)非常普及,但在當(dāng)時(shí),AI開發(fā)者依然面臨著非常實(shí)際的問題:怎么從“一問一答”變成真正理解問題,要根據(jù)上下文理解用戶意圖,主動(dòng)提供一些幫助。如果只能對(duì)話,這個(gè)系統(tǒng)的實(shí)用價(jià)值就會(huì)大大降低,而想要解決一些生活中的實(shí)際問題,就需要做到“真正理解”,非??简?yàn)我們上一期中提到的自然語(yǔ)言理解(NLU)技術(shù)。
2015年百度世界大會(huì),“度秘”首次亮相,2017年美國(guó)拉斯維加斯CES上,“度秘”有了個(gè)新的名字——DuerOS(小度助手),可以搭載到合作伙伴的硬件上,語(yǔ)音、語(yǔ)義等大量算法和模型后續(xù)也得到了進(jìn)一步開放,幫助硬件廠商打造自己的語(yǔ)音控制中樞,百度下的這一手棋為它匯聚了大量生態(tài)合作伙伴。
到這個(gè)時(shí)間點(diǎn)為止,百度打磨語(yǔ)音技術(shù)的思路很明確——通過開放技術(shù),進(jìn)入大量形態(tài)各異的硬件中,實(shí)際上就等于占據(jù)了這些硬件的語(yǔ)音入口,只要廠家沒有自研語(yǔ)音的打算,就一定要用到DuerOS系統(tǒng),這是商業(yè)的角度;而語(yǔ)音技術(shù)在實(shí)驗(yàn)室外得到了更多的實(shí)踐,每一次使用都會(huì)帶來更貼近現(xiàn)實(shí)生活的反饋,比如不同的人喚出語(yǔ)音的習(xí)慣不同,發(fā)出語(yǔ)音指令會(huì)有音量、音調(diào)、方向、詞語(yǔ)的差異,這些都會(huì)成為DuerOS自我學(xué)習(xí)成長(zhǎng)的“養(yǎng)分”,這是技術(shù)的角度。
大廠提供平臺(tái)系統(tǒng),對(duì)外輸出垂直能力或解決方案,這一模式在2017年前后開始流行起來,降低了許多第三方廠商擁抱人工智能的門檻。不過,百度并沒有就此停止軟件與硬件的“靈肉結(jié)合”,自研硬件的想法開始出現(xiàn)。
自研硬件,靈肉合體
在第三方硬件上積累經(jīng)驗(yàn)、“打怪升級(jí)”之后,DuerOS優(yōu)化到2.0版本,已經(jīng)可以做到“打開手機(jī)百度,播放今天的新聞,下一條,聲音大一點(diǎn),返回……”這種連續(xù)對(duì)話,交流體驗(yàn)已經(jīng)非常流暢,實(shí)現(xiàn)了高達(dá)97%的語(yǔ)音喚醒準(zhǔn)確率,將誤報(bào)次數(shù)被控制在24小時(shí)一次以內(nèi),具備進(jìn)一步大規(guī)模應(yīng)用的條件。
2018年,百度正式成立智能生活事業(yè)群組(Smart Living Group)SLG,開始著手打造自己的智能音箱,這里需要注意的是,互聯(lián)網(wǎng)思維與硬件思維差異很大,互聯(lián)網(wǎng)大廠經(jīng)常被人吐槽沒有硬件基因,鬧出過不少笑話,所以百度找了一個(gè)專業(yè)的人來主持這件事,他就是景鯤。
景鯤曾任微軟公司首席研發(fā)總監(jiān),也是微軟小冰的創(chuàng)造者之一,對(duì)智能語(yǔ)音這一塊可以說駕輕就熟,他于2014年加入百度,2018年升任百度智能生活事業(yè)群組總經(jīng)理。相比語(yǔ)音技術(shù)突破,景鯤更注重打造“符合中國(guó)人使用習(xí)慣”的產(chǎn)品,他認(rèn)為如果要做智能音箱,就不能忽視老人和小孩群體,這點(diǎn)與歐美產(chǎn)品思路差別很大,因?yàn)闅W美智能音箱主要面向青年至中年白領(lǐng)群體。
比如產(chǎn)品設(shè)計(jì)要基于中國(guó)用戶習(xí)慣、口音特點(diǎn)、交互訴求;使用頻率與習(xí)慣的培養(yǎng)需要被關(guān)聯(lián)上強(qiáng)有力的內(nèi)容與功能;要符合家庭場(chǎng)景使用習(xí)慣,不能每次都喊喚醒詞……
2018年3月26日,帶屏智能音箱小度在家誕生。這款產(chǎn)品既可以用語(yǔ)音控制,也可以通過觸屏控制,而且搭載了視頻觀看、視頻對(duì)話等需要屏幕的功能。通過小度在家,其實(shí)我們能看到某些消費(fèi)級(jí)人工智能產(chǎn)品的設(shè)計(jì)思路:
一是更加豐富的交互方式。如果一款產(chǎn)品僅面向Z世代人群,他的交互方式會(huì)變得極簡(jiǎn)化,只保留Z世代最常用的那一種,比如語(yǔ)音或者觸屏,但是面向更廣域人群的消費(fèi)級(jí)產(chǎn)品,還需要向更多群體進(jìn)行兼容,所以小度在家系列從一開始就主打帶屏智能音箱的設(shè)計(jì),語(yǔ)音+觸控的交叉使用,可以最大程度囊括不同年齡段的用戶。
二是更自然的交互習(xí)慣。前面已經(jīng)提到,語(yǔ)音交互是人類社會(huì)下一階段的普及點(diǎn),但用戶教育一定要順應(yīng)人類直覺,而非反直覺,一開始,使用智能音箱每次都要加上喚醒詞,但我們回到家每次都要喊一聲“小度小度,把電視打開”,“小度小度,把燈關(guān)掉”無(wú)異于一種羞恥play,在2018年小度助手3.0的更新中,已經(jīng)可以不用每次都喊喚醒詞,更像人類一樣連續(xù)對(duì)話,而且能根據(jù)歷史對(duì)話紀(jì)錄不斷優(yōu)化反饋。
三是要有實(shí)用性。智能音箱剛出來的時(shí)候?qū)嵱眯圆桓撸且驗(yàn)榧夹g(shù)限制,不能準(zhǔn)確理解用戶意圖,所以只能用于單純對(duì)話和一些簡(jiǎn)單功能的接入,而且也涉及到更多第三方功能接入門檻的問題。所以在小度不斷地升級(jí)迭代中,第一方功能和第三方功能越來越豐富,尤其面向老人和兒童,大大延展了智能音箱的實(shí)用性。而且隨著我國(guó)智能家居滲透率進(jìn)一步提升,智能音箱的家庭控制中樞作用越來越突出。
小度是“基礎(chǔ)技術(shù)決定上層產(chǎn)品”的具現(xiàn)化
截至目前,小度智能音箱已經(jīng)經(jīng)過多次升級(jí)迭代,并且面向不同的人群開辟了眾多產(chǎn)品線,而它的“靈魂”DuerOS系統(tǒng)也已經(jīng)升級(jí)到7.0版本,并且向更多品類滲透——無(wú)線耳機(jī)、平板、翻譯筆、電視、健身鏡……不過,小度在第一方硬件的主力載體,仍然是帶屏智能音箱小度在家系列,并且向老人關(guān)懷和兒童教育兩大方向持續(xù)特化。
這些都建立于百度在語(yǔ)音交互、語(yǔ)言理解的技術(shù)突破之上。這里舉兩個(gè)可以大幅優(yōu)化用戶體驗(yàn)的技術(shù):
一個(gè)叫“全雙工免喚醒”,這是改變一問一答生硬模式的關(guān)鍵,讓人可以和智能音箱連續(xù)對(duì)話、多輪對(duì)話,而不用喚醒,這樣人機(jī)交互就更接近人和人之間的互動(dòng),很考驗(yàn)機(jī)器的理解能力,因?yàn)閱拘言~的誕生,是為了在理解能力略顯不足的階段,提醒機(jī)器“我要開始對(duì)你下指令”了,如果不加喚醒詞,機(jī)器不知道你在叫他;但是“全雙工免喚醒”技術(shù)可以讓機(jī)器理解人類哪些話是對(duì)自己說的,哪些話和自己無(wú)關(guān),機(jī)器知道該什么時(shí)候開啟自己的“注意力”。
另一個(gè)叫“多模態(tài)交互”,意思是在一段交流過程中,機(jī)器可以識(shí)別文字、語(yǔ)音、視覺、動(dòng)作、環(huán)境等多種方式的交叉混用,還能形成正確的交互邏輯。比如你問小度“周杰倫今年最火的是哪首歌”,小度回答說是“是《莫吉托》,要我為你播放嗎?”,你向它比一個(gè)“OK”的手勢(shì),它就開始播放了,這背后是先用圖形識(shí)別出人類的肢體動(dòng)作,再將動(dòng)作化為語(yǔ)言進(jìn)行理解。這種也很接近人和人之間的自然交流。
從這兩條可以發(fā)現(xiàn),百度在實(shí)驗(yàn)室關(guān)起門來做的AI底層技術(shù)研發(fā),很快就能找到應(yīng)用渠道,并且轉(zhuǎn)化為產(chǎn)品功能,這是產(chǎn)業(yè)側(cè)下場(chǎng)做基礎(chǔ)型研究的最大優(yōu)勢(shì),我們常常說“產(chǎn)學(xué)研不分家”,意義就在于此。
此外,這種現(xiàn)象還帶來了另一種優(yōu)勢(shì):在上一個(gè)人工智能周期,技術(shù)突破到實(shí)際應(yīng)用時(shí)間較長(zhǎng),這一方面受限于芯片等物理基礎(chǔ)設(shè)施的不完善,另一方面受限于科學(xué)家的產(chǎn)業(yè)思維沒有得到普及,因此一門技術(shù)很難快速實(shí)現(xiàn)商業(yè)化,發(fā)揮自身價(jià)值,這為2019-2020年人工智能行業(yè)整體遇冷埋下了伏筆。企業(yè)以消費(fèi)級(jí)產(chǎn)品牽引AI技術(shù)的升級(jí)迭代,可以避免一些熱錢和概念堆疊出來的“空中樓閣”,這對(duì)人工智能技術(shù)實(shí)用化意義重大。
此外,人工智能消費(fèi)級(jí)產(chǎn)品帶來的另一個(gè)益處是,消費(fèi)者群體就是一個(gè)天然的數(shù)據(jù)庫(kù),我們知道深度學(xué)習(xí)需要數(shù)據(jù)去“喂”,以實(shí)現(xiàn)系統(tǒng)的優(yōu)化,去年3月小度智能助手月語(yǔ)音交互總次數(shù)就達(dá)到66億次,這加快了小度升級(jí)迭代的速度,和在實(shí)驗(yàn)室閉門造車不可同日而語(yǔ)。這也側(cè)面證明了,深度學(xué)習(xí)確實(shí)是促進(jìn)人工智能發(fā)展的“利器”。
如今,小度背靠百度人工智能技術(shù)優(yōu)勢(shì),以及在宣傳營(yíng)銷、現(xiàn)金補(bǔ)貼方面的資源傾斜,成功變身為網(wǎng)紅產(chǎn)品。但行業(yè)瓶頸期也隨之而來:隨著智能音箱功能性開發(fā)見底,以及疫情影響供應(yīng)鏈運(yùn)轉(zhuǎn),2020年國(guó)內(nèi)智能音箱銷量下降了8.6%。對(duì)此,2021年小度推出了很多新品類,延伸到其他的垂直場(chǎng)景,這也是AI底層技術(shù)具備靈活性和泛用性的優(yōu)勢(shì)所在。
接下來,我們聊一聊百度AI“三駕馬車”的另一頭:自動(dòng)駕駛,同樣是自研——開放——合作——自造的道路,某種程度上,這個(gè)領(lǐng)域與人工智能行業(yè)整體趨勢(shì)更加緊密,Apollo的的曲折路線,反映了人工智能商業(yè)化之路的艱辛。(GZH:閱后即AI)
END
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 sumchina520@foxmail.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。