百度董事長兼 CEO 李彥宏如是說。單純的文字搜索時代已經(jīng)漸行漸遠了,如今的搜索引擎,可以直接搜索語音和圖片,這也催生了他們在電子商務中的應用,比如依圖搜索商品。
圖片搜索引擎中,我們較為熟悉的有 Google,上傳圖片或輸入 URL 地址,Google 就會按圖索驥,給你圖片來源、相似圖片等搜索結果。這一切,都基于 Google 復雜的圖像識別算法,對圖像“指紋掃描”,包括像素、顏色,亮度,從而進行圖片的特征提取,繼而找出相似結果。
而 Google 又要在這個領域更進一步了。據(jù)《紐約時報》報道,Google 和斯坦福大學的科學家團隊研發(fā)了新一代的圖片識別技術:給圖片做文字描述。識別的范圍也不僅僅是圖片,也包括視頻畫面。
目前的圖片識別技術只識別出圖像中的單個物體,而這項新技術識別的是整幅畫面,并進行標記,用自然語言(英語)進行描述。比如,“草原上的大象”、“玩飛盤的年輕人”這樣的字句。圖片被如此“翻譯”過后,就能夠更容易、更準確的分類,在被搜索時能提供更精確的結果。
用“文字搜索”協(xié)助“圖片搜索”的好處顯而易見:這項技術也可以幫助視障人士,或者應用在公共監(jiān)控的安全系統(tǒng)上——監(jiān)控攝像頭所捕捉到的不僅是“面部”和單個個體,它可以識別整個畫面,包括其中的運動、行為,自動報警。
也就是說,它為機器的認知和自我學習提供了新的技術基礎。研究人員的靈感來自人類大腦的神經(jīng)元網(wǎng)絡,這個網(wǎng)絡讓大腦可以自我“訓練”,看到新事物時可以發(fā)現(xiàn)記憶中相似的事物。Google 要做的就是這樣的一個大腦,可以認知、可以理解圖片的內容。
認知是人類所具備的一種重要的能力,我們的大腦能夠通過認知,也就是綜合大量信息,來確定一個人的身份,一個物品的種類,這是人類智力的基礎。計算機如果能做到這一點并不容易,Google X 曾動用了 1000 臺電腦,一共 16000 顆處理器,創(chuàng)造一個多達 10 億個連接的神經(jīng)網(wǎng)絡,在 1000 萬張略縮圖中,找到包含“可愛小貓”的圖片。
當然,這項技術最主要的障礙在于識別的準確性,一些圖像識別專家并不看好它,認為它只是復制了人類的視覺能力,反而在理解圖像時更模棱兩可。
盡管如此,讓計算機識別“真相”需要計算機科學開創(chuàng)新的圖形搜索技術!拔艺J為圖片和視頻中的像素數(shù)據(jù)是互聯(lián)網(wǎng)的暗物質(Dark matter),我們希望照亮它!表椖康念I隊、斯坦福大學人工智能實驗室的李飛飛(Fei-Fei Li)說。