[轉載]對話式介面40年了，約伯斯所看見的未來實現了嗎？

PCM.DSD 發表於 2015-9-18 07:04

你可能聽說過這樣一個故事：1979年，當年輕的約伯斯拜訪施樂公司位於Palo Alto的PARC研究中心時，他看到了施樂新發明的的圖形用戶介面（GUI）。相比起傳統的文本介面，程式圖示、視窗化、下拉功能表和絢麗的圖像效果把約伯斯狠狠震撼了一把。

“仿佛蒙在我眼睛上的紗布被掲開了一樣。”《約伯斯傳》中如此描述約伯斯當時的感受，“我看到了電腦產業的未來。”
約伯斯回到蘋果後，他立刻下令研究人員開始著手模仿他剛看到的一切。這一技術在隨後上市的Macintosh上首次被應用，並取得了轟動效果。

PC歷史上的一個新時代也從此展開：圖形用戶介面開始成為主流的對話模式，無論是第一台Macintosh，還是最近上市的iPhone 6s，都無一例外地採用了圖形用戶介面。

其實，這個故事還有一個很少有人知道的分支：就在約伯斯拜訪PARC的同時，有另一支團隊也在研究另外一種完全不同的人機對話模式，這種方式今天被稱為 “對話式介面”。該團隊設想了這樣一個世界：在數十年後，當電腦的功能足夠強大，用戶可以用通用的人類語言與電腦進行交互，幫助解決問題。

在PARC領導自然語言研究團隊的科學家叫Ronald Kaplan。Ronald的團隊在上世紀70年代就設計了一個系統，能讓用戶以自然語言與電腦交換資訊和訂購機票。但對Ronald的團隊來說，首當其衝的就是成本問題。“服務每個客戶的成本.......嗯，我猜大概要上百萬美元吧。”Ronald如是說。不僅如此，他們還需要更快、可以更好進行分散式計算、更聰明和更高效的電腦。Ronald認為，按摩爾定律，這或許需要15年的時間才能達到他們的要求。事實上，他們等了將近40年。

今天的Ronald Kaplan是一家叫做Nuance Communication公司的副總裁。Nuance不僅是蘋果Siri和福特專為手機配備的SYNC車載多功能通訊娛樂系統和的技術提供方，其合作夥伴更是涉及幾乎每個科技細分領域。但Nuance逐步發現，近幾年有越來越多的人開始進入這一領域，無論是Amazon、Google還是微軟這樣的巨頭或是其他創業公司，都在試圖改進Ronald和其團隊近40年的研究成果：他們相信，總有一天你可以像和你的朋友對話一樣和各種設備對話，而這些設備會正確理解和執行你所說的一切。這些新工具將會幕布那些圖形化用戶介面無法滿足用戶的安全和愉悅需求，反過來，這些日漸增長的對話式介面交互也使得你與設備之間更加親密和個人化。

但事實是：語音介面的效果仍然不盡如人意。例如，不少公司已經使用這一技術來做簡單的客戶服務，但在實際使用中，我仍然經常需要放下電話用虛擬鍵盤輸入生日資訊等內容（可能和我的廣東腔英語有關）。

至於Siri，如果是一些諸如問路之類的簡單問題倒是可以對付，但如果你的問題邏輯太複雜把Siri逼急了，Siri也會無恥地給告訴你，外事不決問Google，然後丟一個頁面給你讓你自己看去。像Tony Stark一樣和人工智慧JAVIS那樣對話的場景，也只能出現在電影裏。

不過，這一切總在朝好的方向發展。今年6月初，SoundHound的首席執行官Keyvan Mohajer對外展示了一個從其2005年初創之時就一直在打磨作品。在此之前，我們對SoundHound的理解是一個流行音樂識別應用，如果你對著手機哼上幾句歌，SoundHound就會識別這首歌曲的名稱。但這款叫“獵犬”（Hound）的原型則更進一步：一開始，Keyvan問的是一些簡單的問題，例如現在在柏林的時間、日本的人口等。突然Keyvan冒出一句：“它們之間相距多遠？”根據之前的問題，“獵犬”對此作出了正確的回答：“大約5536英里”。

在接下來的測試中，“獵犬”成功回答了諸如計算按揭貸款的數額以及“告訴我首都有Space Neddle這個建築物的那個國家有多少人口？”之類的問題，對於Keyvan一口氣連珠炮發問的多個問題，一般人或許都需要想一陣才能反映過來，但對於“獵犬”來說同樣不在話下。就其表現而言，仍然處於內側階段的“獵犬”或許是迄今為止速度最快、功能最全的語音識別系統。獵犬的牛逼之處在於可以同時進行語音識別和自然語言處理，但對其他類似系統而言，要迎頭趕上或許只是時間問題。

對於上個世紀七十年代的Ronald來說，他們所頭疼的“門檻技術”現在已經是任何一家語音識別公司都能輕易掌握的東西。
今天的對話式介面技術是一個經典的跨界融合：技術計算能力的增長、語音識別、移動通信、雲計算和神經網路都在同一階段達到一個臨界點，最終使得這一領域的研究者開發出足夠好、足夠便宜和無處不在的即時對話介面。

而這種對話模式的發展，也進一步推進了那些沒有螢幕的聯網設備（例如路由器或者煙霧報警器之類），畢竟對於這些設備，我們需要的是一種不需要按鈕、功能表和圖示的自然對話模式。

而在另一方面，由約伯斯發揚光大的GUI世界正處於一個令人尷尬的瓶頸期。

圖形用戶介面要求每一個動作和功能都有一個圖示或者功能表選項，但即便像我們每天都要使用的Photoshop或者Excel，你所熟悉的可能也就只有最常用的幾個操作，真要完全掌握所有功能足以把大多數人逼瘋。Ronald也承認，現在的圖文用戶介面已經幾乎達到了天花板。

如果想要再進一步，你可能不得不讓虛擬助理來幫你解決問題——不管是iOS 9、Android 6、Windows 10還是Siri、Google Now和Cortana，巨頭們都在通過虛擬助理的方式幫助用戶提高效率。哦對了，另外一家不做作業系統但具有十億級用戶的巨頭Facebook也有智能助手Ask M。

對於這些虛擬助理而言，他們的出現並不是要替代觸摸屏或者圖形用戶介面，但技術的進步會在很大程度上繞開GUI，例如不少00後已經懶得打字而直接用麥克風輸入文本，而對於像老年人或者部分殘障人士（例如視力障礙）來說至關重要。

這是另一個創業故事：2010年，24歲的有志青年Maury被醫生告知，他的視力在衰減並最終會失明。Maury意識到，他不得不考慮如何在看不到東西的情況下使用電腦，而這也是美國2000多萬視力障礙人士會遇到的問題。現有的解決方案是一種叫做“Screen Reader”（螢幕閱讀器）的技術，已經有30年的歷史，但隨著數位化環境越來越複雜（很大程度是Android的錯），這一技術已經跟不上時代。

發現了這一需求，Maury開始創辦了一家叫做Conversant Labs的公司，針對視力障礙人士開發能夠用語音來操作的應用和服務。Conversant的第一款產品叫做SayShopping，可以幫助視力障礙人士通過語音在Target上買東西，在下一步，Maury還計劃在今年年底前完成一個能為iOS應用添加對話互動的框架，便於開發者開發針對視力障礙人士的產品。

另一個例子是Amazon的Echo。在剛面世時，有人這麼評價Echo：這款產品希望同時扮演無線音樂播放器和虛擬助手兩種角色，但不管哪個角色都表現一般。但隨著使用時間的增加，Echo的自動學習能力開始顯現出效果，逐步適應使用者的說話速度、模式和偏好，更符合用戶的需求。

這也是對話式介面和圖形用戶介面的不同：你的使用時間越多，它就會和你更親近。毫無疑問，開發虛擬助手的巨頭們也注意到了這一點，例如微軟就給其虛擬助手Cortana（中國官方名稱“小娜”）一個鄰家女孩般的個性形象。

不管是蘋果、Google、微軟、Nuance或者其他這一領域的創業公司，他們的結論都是一致的：基於語音介面的個人代理的出現可以瞭解你的喜好、你的日常行為、你的表達方式、你的習慣和進展程度，從而幫助你更高效地去使用各種App和設備。

這就好比我們生活中的水和空氣，不引人注意又無處不在，一旦你已經習慣，它就會成為你生活中不可或缺的一部分，再也無法分開。

頁: [1]

Post76.hk's Archiver

[轉載]對話式介面40年了，約伯斯所看見的未來實現了嗎？