人工智能正在推動超級監控
這種情況不會持續很久了。雖然IC Realtime公司提供的基于云的分析功能可以升級現有的、傻瓜式的攝像頭,其他一些公司則直接在他們的硬件中加入了人工智能。Boulder AI就是一家這樣的創業企業,該公司用自己的獨立人工智能攝像頭推銷"視覺即服務"。將人工智能集成到設備中的一大優勢是它們不需要互聯網連接就能工作。Boulder公司廣泛地面向各行各業進行銷售,為每家客戶量身打造機器視覺系統。
該公司的創始人Darren Odom對《The Verge》表示:"應用程序真的是非常全面。"他表示:"我們的平臺銷售給了銀行、能源公司。我們甚至有一個應用程序可以觀察比薩餅,確定它們的大小和形狀是否正確。"
"我們現在能夠100%地識別愛達荷州的鱒魚。"
Odom舉了一個在愛達荷州建造水壩的客戶的例子。為了符合環保法規,他們正在監測能夠越過這個基礎設施頂部的魚類的數量。Odom表示:"他們以前安排了一個人坐在窗口看著魚梯,數著有多少鱒魚游過。"(顧名思義,魚梯指的就是一條階梯式的水槽,魚類可以通過這條水道奮力上游。)"然后他們轉移到了視頻技術,有人(遠程)進行監控。"最后,他們聯系了Boulder公司,該公司為他們搭建了一個定制化的閉路電視監控系統以確定通過魚梯上游的魚的類別。Odom自豪地表示:"我們真的使用計算機視覺進行了魚類物種識別。" Odom表示:"我們現在能夠100%地識別愛達荷州的鱒魚。"
如果說IC Realtime代表了這個市場的通用一端,那么Boulder公司就是展示了精品承包商的能力。不過,在這兩種情況之下,這些公司目前所能夠提供的還僅僅是冰山一角。就像機器學習在物體識別的能力方面取得迅速的進步一樣,它分析場景、活動和動作的能力也有望迅速提高。一切都已經就位,包括基礎研究、計算能力和訓練數據集--這是創建有能力的人工智能的關鍵組成部分。視頻分析的兩個最大的數據集來自YouTube和Facebook,這兩家公司都曾經表示希望人工智能能夠幫助他們節制平臺上的內容(不過兩家公司也都承認還沒有做好準備)。例如,YouTube的數據集包含超過45萬小時帶標簽的視頻,希望能夠刺激"視頻理解的創新和進步"。參與構建此類數據集的組織的廣度讓人對該領域的重要性有了一些了解。谷歌、麻省理工學院(MIT)、IBM和DeepMind都參與進來,開啟了自己的類似項目。
IC Realtime公司已經在開發面部識別等高級工具了。之后,它希望能夠分析屏幕上正在發生的事情。Sailor表示,他已經和教育行業潛在的客戶進行過交談,對方希望當學生在學校遇到麻煩的時候,監控能夠識別出來。他表示:"例如,他們對打架的迅速通知感興趣。"系統需要做的一切就是注意聚集在一起的學生,然后提醒某個人,這樣他就可以檢查視頻內容,看看發生了什么事情或者親自去調查。
Boulder公司也正在探索這種高級分析。該公司正在開發的一個原型系統的目標是分析在銀行里的人的行為。Odom表示:"我們專門尋找壞人,并且探查一個正常人的行為和越界的人的行為之間的區別。" 要想做到這一點,他們正在使用舊的安全攝像頭拍攝的視頻來訓練他們的系統,以發現異常行為。但是這種視頻有很多的質量都非常低,所以他們也會找一些演員來拍攝自己的訓練視頻片段。Odom沒有詳細說明細節,但表示該系統將尋找特定的面部表情和行為。他表示:"我們的演員們會做一些類似蹲伏、推搡以及回頭一撇之類的動作。"
對于監控和人工智能方面的專家來說,這些功能的引入充滿了技術和道德方面的潛在困難。而且,和人工智能經常遇到的情況一樣,這兩個類別的困難是彼此交織在一起的。機器不能像人類一樣理解這個世界,這是一個技術問題,但是當我們假設它們能夠做到這一點,并且讓它們為我們做決定時,這就變成了一個道德問題。
卡內基.梅隆大學的教授Alex Hauptmann專門從事這種計算機分析,他表示,盡管人工智能近年來已經在這一領域取得了巨大的進步,但是在讓計算機理解視頻方面仍然存在著非常根本性的問題。其中最大的一個就是攝像頭的問題,這個問題我們已經不再會經常想到了:分辨率。
最大的障礙非常常見:低分辨率的視頻
舉個例子來說,一個神經網絡經過訓練,可以分析視頻中的人類行為。這些工作是通過將人體細分為多個部分--手臂、腿、肩膀、頭部等--然后觀察這些小的部分在視頻中從一幀到另一幀的變化來進行的。這樣,人工智能可以告訴你是否有人在跑步,或者是在梳頭發。Hauptmann對《The Verge》表示:"但是這取決于你所擁有的視頻的分辨率。" Hauptmann表示:"如果我用一個攝像頭對準停車場的盡頭,如果我能分辨出是否有人打開了車門,就算是非常幸運的了。如果你就站在(攝像頭)前面彈吉他,它就可以跟蹤你每一根手指的動作。"
對于閉路電視監控系統來說,這是一個大問題,攝像頭往往會有顆粒感,而角度也常常很怪異。Hauptmann舉了一個便利店攝像頭的例子,攝像頭的目的是監控收銀機,但是它也監視著面向街道的窗子。如果外面發生了搶劫,攝像頭的鏡頭有一部分被擋住了,那么人工智能可能就會卡住。他表示:"但是我們作為人類,可以想象正在發生的事情,并且把它們拼湊在一起??墒请娔X就做不到這一點。"
同樣,雖然人工智能很好地識別視頻中的相關事件(例如,某人正在刷牙、看手機或者踢足球),但仍不能提取重要的因果關系。以分析人類行為的神經網絡為例。它可能會看到鏡頭并說"這個人正在跑步",但它不能告訴你他們之所以在跑步,是因為他們快要趕不上公共汽車了,還是因為他們偷了某人的手機。
這些關于準確度的問題應該讓我們認真思考一些人工智能創業企業的宣言。我們現在還遠未接近這樣一個點:電腦通過觀看視頻能夠獲得和人類一樣的見解。(研究人員可能會告訴你,要做到這一點可是太困難了,因為它基本上是"解決"智力問題的同義詞。)但是事情的發展速度非???。
責任編輯:任我行