工業(yè)革命將人類從體力勞動中解放出來,信息技術(shù)把全世界緊密的聯(lián)系在一起,而人工智能則是要將人類從繁重的腦力勞動中解放出來。人工智能可能是最后一個需要靠人類自身智慧去攻克的革命。
11月13日,由B12、觀數(shù)·涂子沛頻道主辦,智東西、良倉加速器、騰訊大浙網(wǎng)、創(chuàng)享基金聯(lián)合主辦的第二屆萬物互聯(lián)創(chuàng)新大會「創(chuàng)業(yè)下一潮水:大數(shù)據(jù)與智能時代」在杭州召開。
作為重磅嘉賓,科大訊飛研究院院長胡國平分析了人工智能浪潮背后的三大推手,并分享了科大訊飛17年來在智能語音和人工智能走過歷程中的經(jīng)驗教訓(xùn)。
以下內(nèi)容根據(jù)胡國平現(xiàn)場演講整理,有刪減:
60年來,人工智能經(jīng)歷了三次浪潮,或者說三起三落。目前我們正在經(jīng)歷第三次人工智能的浪潮。也許這一次還可能會有一些波折,但無論如何人類去追求人工智能的夢想會持續(xù)的往前推進。
大部分人包括科大訊飛都認為,我們正在經(jīng)歷的第三次浪潮,已經(jīng)處在人工智能真正爆發(fā)的前夜,人工智能技術(shù)會被應(yīng)用到各個行業(yè)。
這一次人工智能真的火了起來,機器下棋攻克了圍棋的最后一個難題,語音識別達到了97%的識別率,人臉識別也已經(jīng)超過了人類肉眼所能達到的水平。
人工智能火起來之后有一個很明顯的跡象:政府、巨頭、創(chuàng)業(yè)者以及資本都在大量涌入。包括美國、中國,都把人工智能定義為國家戰(zhàn)略。Google、Facebook、蘋果、訊飛、百度都進入了人工智能前沿領(lǐng)地。特別是最近2016年以來,阿里、華為、騰訊、樂視、聯(lián)想,小米都已宣布要進入人工智能領(lǐng)域。
目前國際范圍內(nèi)人工智能的對抗依然主要是中美兩國之間的對抗,這主要是因為人工智能的技術(shù)依賴于大數(shù)據(jù)、移動互聯(lián)網(wǎng)、云計算,和廣大的用戶群體。在這方面,中國和美國是佼佼者。
這次人工智能技術(shù)火起來背后真正原因,我把它們歸結(jié)為三點:
第一個是深度學(xué)習(xí);
第二個是大數(shù)據(jù);
第三個是云計算。
首先是深度學(xué)習(xí),或者說深度神經(jīng)網(wǎng)絡(luò)的橫空出世。這個2006年提出來的深度學(xué)習(xí)的方法取得了歷史性的重大突破。它的基本原理其實也比較簡單,就是輸入相關(guān)數(shù)據(jù),通過網(wǎng)絡(luò)產(chǎn)生最后的輸出。
如果這個輸出和原來所標注的答案不一樣,它可以通過一個BP的錯誤回饋算法去修正相關(guān)網(wǎng)絡(luò)中的參數(shù),使得最終對整個訓(xùn)練級而言,它的預(yù)測和建模的準確度最高。
方法其實很簡單,但是最大的一個作用是它的網(wǎng)絡(luò)量非常大,自由數(shù)非常多,建模能力非常強。類似在圖象識別中,它能有效地抓住從像素到邊界,部件,到人臉一系列特征,從而做出有效的人臉識別。所以它其實是一個更強大,更通用的,更耗訓(xùn)練數(shù)據(jù)的建模機器。
我們舉一個具體的例子供大家理解深入學(xué)習(xí)關(guān)鍵突破的點,模式識別。左邊假設(shè)是一張人臉,按照經(jīng)典人臉識別套路,可以提取它的特征,頭發(fā)、胡須,訓(xùn)練相關(guān)模型,用各種語言,一系列機器學(xué)習(xí)的模型,最后來建初模型,做觸摸式識別,來判斷圖像顯示的人臉性別。
但是用了深入學(xué)習(xí)之后有一個很關(guān)鍵的變化:提取特征的環(huán)節(jié)已經(jīng)沒有了。對于機器而言,整個模式識別內(nèi)容已經(jīng)簡化為準備數(shù)據(jù)和訓(xùn)練模型兩個最簡單的環(huán)節(jié)。
如果大家注意到AlphaGo的算法原理,它也是類似這樣操作的,對圖象識別來說不再需要任何特征的提取,直接把像素值輸進去。對于AlphaGo而言,它也是用深度學(xué)習(xí),直接把19×19格子上圍棋黑白棋信息輸入神經(jīng)網(wǎng)絡(luò),判斷當前棋局下黑棋贏的概率是多少。不再用人工方法告訴AlphaGo應(yīng)該去看什么樣的東西,它輸入的都是最原始的信息。
如果把深入學(xué)習(xí)看成一個黑盒子的話,或許可以理解這次人工智能的變革。拿足夠多的,有監(jiān)督的海量訓(xùn)練數(shù)據(jù)直接輸入一個黑盒子,它就可以獲得一個與人類可媲美的人工智能技術(shù)。
簡單來說,一萬個小時訓(xùn)練樣本,再去訓(xùn)練10的7次方自由度或者參數(shù)、個數(shù)的神經(jīng)網(wǎng)絡(luò),就可以達到與人類可媲美的語音識別效果。
當然,這個不是黑盒子,用的是包括GPU為主的計算服務(wù)器。所以再抽象的來看,與人類可比的人工智能其實是靠大數(shù)據(jù)、或者說大數(shù)據(jù)、大成本、大量計算喂起來的。
現(xiàn)在我們進入了一個深度學(xué)習(xí)的時代。因為深度學(xué)習(xí)的通用性,已經(jīng)不再需要針對任何一個特定任務(wù)去做很多特征提取,或者相應(yīng)的分析和研究工作。
深度學(xué)習(xí)從2013年起就已經(jīng)被廣泛應(yīng)用在語音和語言的各個方面。我們現(xiàn)在幾乎用的所有方法都是以深度學(xué)習(xí)為主框架方式來做語音合成、評測,包括語言模型、機器翻譯與人臉識別。
而且更關(guān)鍵是大家如果做投資也好,做相關(guān)創(chuàng)業(yè)者,一定要記得另外一條:深度學(xué)習(xí)也在不停的往前演進。
2011年主流的DN技術(shù)路線實現(xiàn)了廣泛的應(yīng)用。到了2015年提出了有效模擬人類神經(jīng)注意的模型。現(xiàn)在全世界相關(guān)會議論文,50%以上都和深度學(xué)習(xí)相關(guān),或者說全世界所有智力學(xué)者都在研究和改進深度學(xué)習(xí)。
深度學(xué)習(xí)本身也會持續(xù)改進,因為持續(xù)改進,每年都會費掉訊飛研究院30%的代碼。你可以愛上自己的工作,但一定不要愛上自己的工作成果,因為技術(shù)變化非常非常的快。
剛才說的更多是偏語音圖象識別的概念,深度學(xué)習(xí)在2014年左右開始,在機器翻譯上也取得了更好的效果。它也是采用最新Atentional技術(shù)?;诤A恐杏⑽膶R句隊,機器可以有效的實現(xiàn)機器翻譯。
而且現(xiàn)在大家所喜聞樂見的聊天機器人,自動做詩全是用這個套路所實現(xiàn)的,機器并不能真正的懂得語義。人工智能還在繼續(xù)往前走,被廣泛認為可以替代圖靈測試,來測試機器智能有沒有像人思考的測試。這個測試是用常識推理的任務(wù),檢驗機器是否具備這方面的智能。
舉個例子,爸爸沒法舉起他的兒子,因為他很重。是誰很重?所有人都很容易理解是兒子很重。如果爸爸沒法舉起他的兒子,因為他很虛弱,大家都知道是爸爸很虛弱。
科大訊飛提出了基于神經(jīng)網(wǎng)絡(luò)主要方法的深度學(xué)習(xí)認知智能路線,取得了2016年評測第一名。這里要告訴大家的是,第一名的成績在5選1的選擇里,我們正確率只有58%,所以相對而言和人類接近100%智力相比,還是有相應(yīng)的一些差距。
第三個推動人工智能在最近這五年內(nèi)取得飛速發(fā)展的就是云計算。因為在云計算的支撐下,人工智能首先擴大了整個模型的規(guī)模。剛才說了10的7次方參數(shù)的模型能夠有效被應(yīng)用起來。其次,也獲得了大量真實數(shù)據(jù),我們前面所說的人工智能所需要的位進學(xué)大數(shù)據(jù)獲得了有效支撐。其三,加速了技術(shù)迭代的速度。所以云計算是人工智能進步的技術(shù)推手。
整合前面所說的,人工智能專業(yè)技術(shù)公司必須擁有三大要素:頂尖人工智能算法及團隊,獨特優(yōu)勢的大數(shù)據(jù)積累,以及云計算的能力和服務(wù)。這三個加在一起,它就可以去實現(xiàn)包括科大訊飛在內(nèi)所做到的,每年相對30%-50%的錯誤率下降。
這里有一個技術(shù)上的概念,錯誤率相對下降是評價一個人工智能系統(tǒng)往前改進難度的概念。簡單來說語音識別錯誤率從20%降到10%的難度,等同于從2%降到1%,因為它們相對下降都是50%。
大家前面也說了,摩爾定律走了幾十年,而人工智能類似的摩爾定律,30%為錯誤率相對下降基線,每年錯誤率相對下降持續(xù)了至少五年以上。
而且我們也相信通過算法的演進,數(shù)據(jù)的積累和云服務(wù)的模式,這個相關(guān)的人工智能摩爾定律還會繼續(xù)往前走至少3-5年。
我們要從兩個方面來看這30%到50%的錯誤率相對下降。
第一,如果你所從事相關(guān)人工智能算法,年平均錯誤率下降沒有達到這個值,那就證明你在整個人工智能競爭中是處于相對落后的狀態(tài)?,F(xiàn)在我們在拼人工智能,已經(jīng)不再是拼現(xiàn)在已經(jīng)達到的水平,而是拼你在人工智能的速度進一步加速度。
第二,現(xiàn)在還不成熟的技術(shù),比如說目前視頻監(jiān)控中的人臉識別,未來如果掌控了之前所說的三大因素,就可以保持每年相對錯誤率30%下降幅度。
簡單來說,如果今年錯誤率是20%,那么明年就是14%,再往后可能就到10%的水平。所以創(chuàng)業(yè)也好,投資也好,你可以擁有這樣一個摩爾定律去預(yù)計相關(guān)的技術(shù)在什么時間點,能夠達到用戶可接受的門檻,這是很關(guān)鍵的一點。
前面講的是真正所理解的人工智能這次浪潮背后的原因、三大推手。下面是科大訊飛17年來在智能語音和人工智能走過歷程中總結(jié)出來的一些經(jīng)驗,或者說教訓(xùn)。
確實,人工智能是最近五年,或者最近三年才真正火起來,特別2016年是最火的一年。但是對科大訊飛而言,我們99年從科大大學(xué)生創(chuàng)業(yè)以來,一直在追求人工智能的夢想。因為技術(shù)的進步,我們打開整個相關(guān)的市場空間,獲得了更好的發(fā)展機會。
這里首先要說一個挑戰(zhàn)。人工智能和傳統(tǒng)意義上的技術(shù)在立地方面有很大的不同點。
大家也許不能完全理解,我為什么把機器翻譯和WIFI放在一起來理解。是這樣的,當世界上推出一個WIFI技術(shù)的時候,所有人都會欣然接受它,不會說你的WIFI,我不需要,我可以通過自身能力實現(xiàn)手機和終端設(shè)備聯(lián)網(wǎng)的能力,因為所有的WIFI是人類自身所不具備的技術(shù)范疇。
而機器翻譯不一樣,只要是大學(xué)生,都能找出來現(xiàn)在的機器翻譯系統(tǒng)所出現(xiàn)的系統(tǒng)。所以當你把一個機器翻譯技術(shù)推出去,或者把語音識別技術(shù)推出去的時候,別人總會質(zhì)疑你,你的技術(shù)和人的能力相比實際上還是有差距的。我未必要用,我可以自己搞定。
簡單來說,人類的智能相對人工智能來說,它的打擊是無處不在的。比如自動駕駛和駕駛員的PK,以及速錄員對語音轉(zhuǎn)寫,醫(yī)生對于沃森的系統(tǒng)。雖然說現(xiàn)在智慧醫(yī)療宣傳得非常好,但是要傳統(tǒng)領(lǐng)域醫(yī)療醫(yī)生接受這個新鮮事物還需要一個漫長的過程??拼笥嶏w所獨家在做的自動閱卷技術(shù),拿到老師那邊去的時候,老師始終會以挑剔或者質(zhì)疑的眼光來看待。
應(yīng)該說任何一個方面,人類智能都是人工智能的師傅和競爭對手,所以我們在做人工智能創(chuàng)業(yè)的時候一定要想清楚。和傳統(tǒng)WIFI的創(chuàng)新相比,人工智能的落地會有更多面臨的挑戰(zhàn)和困難。
但是,作為人類徒弟的人工智能,其實它有非常多的優(yōu)勢。如果要充分的發(fā)掘,或者說借勢于這樣一些優(yōu)勢,就能夠有效實現(xiàn)人工智能產(chǎn)業(yè)的落地,或者說創(chuàng)業(yè)的成功。
我這里總結(jié)了五條,未必是完全,大概可以供各位參考。
第一,人工智能技術(shù)可以作為人機,或者其它系統(tǒng)人機接口。因為人自身的能力就只能是人自身的,人機智能可以拓寬交互系統(tǒng)。當手寫識別作為發(fā)短信,作為人與人之間信息溝通人機接口的時候,它就實現(xiàn)了有效大規(guī)模的應(yīng)用落地。
我們現(xiàn)在的掃描識別也是為檢索分析做的應(yīng)用,現(xiàn)在車派識別為什么多起來,是因為停車場收費管理里對車派識別應(yīng)用有廣泛的需求。人臉識別很多時候是為了身份認證和手機支付,用戶有明確需求的,人機接口才可以做廣泛的落地。
第二,隨著IoT或者傳感器技術(shù)的進步,利用傳感器以及大數(shù)據(jù)來超過人類的智能也是人工智能有效的發(fā)展模式。這里最典型的一個例子就是天氣預(yù)報,以前人還會說夜觀天象,現(xiàn)在人都不會了。你想出差直接打開本地天氣預(yù)報,就能有效知道明天相關(guān)天氣的情況。
包括自動駕駛,包括其它的,為了方便都可以用比人類更多的傳感器獲得信息輸入,有效做出人工智能來超越人類智能,達到更多應(yīng)用推廣落地機會。
第三,相對客觀性,或者穩(wěn)定可傳承性。包括語音評測,作文評分,以及一系列的技術(shù)。因為人與人在對同一份試卷閱卷時存在主觀性,機器在這方面會更加可觀和無感情的。這時候相對機器對于大量人工閱卷而言就有更多的優(yōu)勢,這樣才會使相關(guān)人工智能技術(shù)被老師和學(xué)校廣泛接受的主要原因。
第四,面向海量任務(wù)的不知疲倦??拼笥嶏w是從語音合成起家,語音合成就是一個典型的不知疲倦合成任一文本,合成海量文本的概念,這個成為它真正落地的原因。
第五,人類學(xué)習(xí)成本高,使用頻度低的產(chǎn)業(yè)。比如說多語種翻譯,是的,人類可以在多語種翻譯上做出很好的能力,但由于學(xué)習(xí)成本太高,使用頻度太低,這時候相關(guān)人工智能就會有很好的應(yīng)用落地。
最后我再稍微講一下人工智能立地的方向和節(jié)奏把握,這也是非常關(guān)鍵的一點。
第一,優(yōu)先對準現(xiàn)實生活工作中存在的大量重復(fù)性的腦力勞動去應(yīng)用人工智能,可以更有效地實現(xiàn)廣泛落地和大規(guī)模產(chǎn)業(yè)化。很多報道都說機器能夠自動做詩,機器自動做曲,而機器自動閱卷顯然具有更大更廣泛的落地機會。
另外,我們還是要把握好相關(guān)人工智能技術(shù)進一步臺階的設(shè)計,不同應(yīng)用場景對同樣語音識別技術(shù)來說,所要求達到的水平是不一樣的。簡單來說,手機云輸入現(xiàn)在已經(jīng)達到97%,已經(jīng)非常好用。而相應(yīng)的會議語音轉(zhuǎn)寫,因為在會議當中人的爭吵等問題,會議語音轉(zhuǎn)寫的正確率還沒有完全達到應(yīng)用門檻。
當然現(xiàn)在這種發(fā)布會,或者這種會議宣講是可以有效達到語音識別率跨過應(yīng)用門檻,達到落地機會。所以當你在選擇人工智能方向時,不管是人臉識別還是其它方向,一定要想好第一個應(yīng)用場景是什么,并且集中力量把那個場景攻下來。
最后一個,人工智能和人類智能并不是嚴格意義上PK和對立的,有很多人機互助的場合和場景。典型來說就是輔助駕駛和自動駕駛這件事情,自動駕駛還沒有真正商業(yè)化,但輔助駕駛已經(jīng)在很多場合得到了廣泛應(yīng)用。在人工智能落地的時候,你可以優(yōu)先考慮人機結(jié)合的落地方式,能夠讓相關(guān)技術(shù)更早達到可應(yīng)用的門檻。
如果大家認真聽了前面部分的介紹,應(yīng)該可以得出一個結(jié)論。做人工智能技術(shù)的核心技術(shù)研發(fā),其實是需要花費非常多的時間、精力和錢的。
另外一種方式,這個就是剛才吳軍老師所說的,當人工智能技術(shù)有進步的時候,有很多飛躍的時候,我們能不能拿著現(xiàn)有人工智能的技術(shù)進步,去和傳統(tǒng)行業(yè),去和相關(guān)的產(chǎn)品進行有效的結(jié)合和創(chuàng)新,這方面如果從創(chuàng)業(yè)和創(chuàng)新的角度來說,機會其實會更大,特別是相對于小規(guī)模的公司而言。
另外,如果你要選擇公司做人工智能核心技術(shù)的研發(fā),一定要有相關(guān)的堅守。訊飛輸入法我們做了六年,每年識別率錯誤率相對下降30%都是堅持在相關(guān)方向做了很大的技術(shù)投入。
另外一方面,訊飛也不是那么的自私,我們也把相關(guān)核心技術(shù)和人工智能技術(shù)進步、進展,通過云服務(wù)的方式,語音云的具體載體來給很多創(chuàng)新創(chuàng)業(yè)團隊提供更好的人工智能支撐。
整個訊飛云自2010年首次發(fā)布以來,經(jīng)過六年的發(fā)展,已經(jīng)集聚了7億用戶,上面有11萬開發(fā)者,以及30億次日訪問的云計算服務(wù)規(guī)模。我們把所有相關(guān)人工智能技術(shù)都有效地對外開放,大家基于訊飛云可以在人工智能這個大的行業(yè)和領(lǐng)域里實現(xiàn)自己的創(chuàng)新和創(chuàng)業(yè)。
最后想強調(diào)一下人工智能的無窮魅力,剛才說了人工智能是人類智能,自身智能智慧最后一個需要攻關(guān)的。另外一個,即使沒有攻關(guān)搞定人工智能技術(shù)狀態(tài)下,人工智能無成本復(fù)制的能力和持續(xù)向前進化的能力也是人類自身所無法比擬的。
人類智能無法復(fù)制。即使你是英語大師的兒子,單詞也要自己重新背誦,這就是人類智慧進步最大的障礙。
而人工智能不一樣,人工智能是一種技術(shù),是一種機器智能。一旦某一個機器具備97%的語音識別正確率,那么世界上所有機器原則上都可以具備這樣的正確率。
不管是哪個公司再繼續(xù)研發(fā)下一代語音識別技術(shù),他一定站在97%的指標之上,無成本復(fù)制和持續(xù)向前的進化能力是人工智能相對人力智能來說非常大的優(yōu)勢,這也是“人工智能威脅論”的主要來源,因為人工智能進化的速度超過人類至少1萬倍。
現(xiàn)實生活中,人類對人工智能已經(jīng)越來越習(xí)以為常。我們現(xiàn)在已經(jīng)不再夜觀天象,直接用天氣預(yù)報這樣有效的人工智能技術(shù)。而我們在以前很多時候還會記憶相關(guān)地址和路線,現(xiàn)在走路都直接用地圖導(dǎo)航。我們原來只是習(xí)慣于拼音輸入法,后來習(xí)慣于手寫輸入法,現(xiàn)在越來越習(xí)慣語音輸入。
我們非常相信在不久的將來,人類可以通過語音和車、家電、家居進行自然交互。每個人都會有一個虛擬助理。我們會越來越對人工智能習(xí)以為常。
人工智能的頂天和立地是科大訊飛成立以來一直所秉持的追求,同時也是我們的方法論。帶著頂天的夢想的同時,也要腳踏實地地去實現(xiàn)人工智能的落地。只有人工智能真正落地了,才能真正把人工智能技術(shù)推向世界最高峰。
人工智能技術(shù)只有達到世界領(lǐng)先,才可以有效的推動相關(guān)技術(shù)達到億萬應(yīng)用的規(guī)模。科大訊飛希望和在座各位一起,帶著頂天的人工智能夢想,知其然,且知其所以然,腳踏實地,樂觀積極的實現(xiàn)人工智能的立地。(胡國平)
TPM,點檢,班組建設(shè),管理能力咨詢培訓(xùn)@左明軍老師.微信:13808969873