「宿胖的技術路線,其實是這樣的:他宣傳ppt里提到的『人工智能識別視頻內容,並根據用戶喜好推送』,實際上完全沒有做到。
傑克,不知道你注意到了沒有——為什麼快蹄上的視頻,都會在首頁上打上這麼多的字呢?比如這個『教你如何扎丸子頭』,或者那個『牙套妹,奈何美色』、『太木人道~』。從審美的角度來說,你不覺得短視頻打這麼多字很醜麼?」
馮見雄侃侃而談地誘導着,力爭讓傑克馬自己去發現。
「對啊,為什麼,很醜。」傑克馬果然順着思路往下說。
馮見雄微微一笑:「因為其實宿胖跟張一鳴一樣,只會識別視頻的標題和文字說明。他的人工智能是識別不出視頻圖像的故事內容的。他只是靠讀懂了文字,然後覺得這個視頻是講什麼的,就把它推薦給其他『曾經喜歡看同類文字標題或描述內容』的用戶。
所以,宿胖的真相,只是跟風了張一鳴的技術路線,然後偽裝成可以智能推送視頻而已。目前地球上,還沒有一種人工智能可以看懂視頻的故事性。至少四年內不可能。」
「原來是這樣……確實,目前世界上圖像識別領域最強的就是谷歌,其次就是我們阿狸系,我說他們怎麼讓機器讀懂視頻內容的呢。」
這句話不是傑克馬說的,而是老曾為了補救,拍的馬屁。
他似乎已經忘了,就在不久前,他還信誓旦旦說「宿胖也能做到,所以你馮見雄不配要高價」呢。
不過,沒人會在意這些話就是了。
傑克馬也不傻,他知道下屬是為了幫他砍價。
沒有一個老闆會處罰一個為了幫自己砍價而說謊的下屬的。
馮見雄也是頂級人精,當下呵呵一笑,窮寇莫追。
他也跟着一起當頭棒喝後給甜棗:「老曾總算想明白了——老馬,你就這麼想好了,谷歌之所以圖像內容識別做得好,是因為他們要搞圖片智能搜索的引擎麼。
你們阿狸之所以這麼投入,是因為你們要讓女人去線下服裝店拍了照、然後上淘寶找同款。
目前這些技術的商業變現渠道還不多。所以只有你們和谷歌這樣砸錢。連你都連根毛的成果還沒砸出來,宿胖這點小身板能做出個屁啊。科研是真金白銀燒錢的,又不是過家家。」
這個馬屁非常精妙,關鍵是言之有物,讓傑克馬聽得很爽。
畢竟馮見雄誇讚的是他的戰略眼光。
對於一個逼王來說,一般的馬屁是聽不進去的。
但如果有人能從高科技發展趨勢的角度,花式論證出他戰略決策的英明果決、高瞻遠矚,那傑克馬簡直會爽到毛孔通透。
可惜世人再無如此口才和犀利眼光。
「嗯……似乎不無道理」傑克馬沉吟數息,旋即想到另一個問題,「小馮,那你又準備如何解決『目前的人工智能還看不懂視頻』這個問題呢?如果你沒有獨門秘訣,那也只不過是宿胖做不到、你也做不到而已。」
「我現在也做不到,但我可以在兩三年內做到,而且確保比他們快至少一到兩年。」馮見雄智珠在握地說。
「那描述一下你的技術藍圖。」傑克馬當仁不讓地問。
馮見雄也不客氣:「可以,不過能讓他們先迴避一下麼?我的計劃,不是純粹靠技術手段來解決的。而是技術不夠、商業和運營來湊。所以,涉及到很多容易被『借鑑』的創意。我必須確保自己的商業機密。」
傑克馬一聽,給老曾和蔡重信都使了個顏色,讓他們先出去雞尾酒。
蔡重信和老曾對視一眼,一聲不吭帶着人走了。
馮見雄微微一笑:「其實,我的辦法,說穿了也簡單——據我所知,目前谷歌公司進行的『智能看懂視頻』項目,其項目預期期限,需要5年,才能攻克全部技術難點。
但是,這5年不是『行百里而半九十』的,而是按照一個個技術階段分別攻克的。他們要實現的最終目標,是『通過讓人工智能算法,識別出一個視頻中,哪幾幀畫面才是決定全篇調性、故事主題的『主要內容/中心思想』。
然後,再通過精讀識別這些幀的畫面上,有多少人物、什麼動作、發生了什麼故事』,最後總結出『這視頻大致是在說講怎麼樣一個故事』。」
馮見雄說到這裏的時候,稍微停頓了一下。也觀察了傑克馬的接受度,又通俗解釋了幾個點。
他的這番理論,如果都用術語表述,可能比較晦澀。
但是,舉個小學生都懂的例子,橫向對比一下,就通俗了——谷歌科學家們,在調教「深度學習」型人工智能、理解人類語言文字/圖像信息的時候,其實有點兒像老師給小學生上語文課。
相信小學生都記得,當年語文課的時候,老師會不厭其煩問你:這篇課文的主要內容是什麼?中心思想是什麼?線索是什麼?
很多小學生當初肯定是內心有一萬頭羊駝奔騰而過:尼瑪!老子知道這個課文說了啥,看懂不就好了?你問個屁的「主要內容」、「中心思想」啊!考試答錯了還扣分!
但你別說,調教機械人學語文的時候,還真得嚴格按照「主要內容」、「中心思想」這麼一步步總結下來。很多人類覺得可以靠本能繞過去、或者省略掉的步驟,機器是繞不過去的。
傑克馬很快就懂了,示意他繼續:「那麼,然後呢?」
馮見雄繼續解說:「既然知道谷歌的技術路線了,那麼我們就可以推斷:在實現最終極的目標之前,谷歌需要先解決『讀懂一張圖里發生的故事』的問題,然後再考慮『如何選出一個視頻中最能體現中心思想的那幾幀』。
那麼,距離『讀懂一張圖裏的故事』這一步,谷歌目前差多遠呢?我認為大致是三年——目前谷歌已經可以做到識別圖片裏是不是有一張人臉,但還沒法識別這個人到底是誰、和另一張照片裏的人是不是同一個。
谷歌還能識別出『圖里有沒有一隻貓』,但識別不出『這隻貓和剛才那隻貓是否是同一隻』。而大約三年之後,這些都不是問題。谷歌能做到『從識別出圖里有隻貓』,到『識別這一幀在講什麼故事』。
我們如果緊跟谷歌的步伐,結合阿狸系的圖像識別研發,就算留一年餘量好了。那麼2016年也能搞出『讓機器讀懂一幀』的商用技術。當然,這裏面肯定需要與阿狸系圖像識別團隊的深度合作,也需要後續的投資。
而對我來說,只要做到了『識別出一幀』,我就能『大致讀懂整個故事』,從而把谷歌需要用純技術手段解決的問題,用運營手段給暫時繞過去。」
技術不夠,運營補。
這一招,馮見雄用得屢試不爽了。
「怎麼補?」傑克馬的語氣已經有些急切,他覺得自己完全被馮見雄天才的腦洞給折服了。
「傑