您当前的位置: 首页 > 金融

百度图像搜索让科幻就在手边iyiou.com

2019-03-12 02:38:48

百度图像搜索:让科幻就在手边

很多人都看过漫威的电影《钢铁侠》,大家羡慕托尼斯塔克的地方,并不是他如何有钱,如何泡妞,而是有一副拉风的盔甲,可以一边在天上飞,一边看它迅速对眼前事物给出的详细说明,并能跟它对话:喂喂喂,我刚才上厕所忘了冲水你快去冲下!

那么一个简单的问题来了:钢铁侠究竟在跟谁对话?即便是漫威的死忠,也未必能答对这个问题。影片中托尼真的在和他的盔甲对话吗?Nonono,他对话的机器人叫贾维斯,是一部联的超级计算机,远在托尼的海景别墅工作室里。钢铁侠的盔甲厉害的地方不在于刀枪不入,火力威猛,而是这部无所不知无所不晓、迅速为搜索匹配答案的超级计算机。

换句话说,阻碍人人成为钢铁侠的难点,不是如何打造那身盔甲和厉害武器,而是如何制造出像贾维斯一样的超级人工智能。

不过,这真的还只是科幻漫画里才有的东西吗?Nonono,在看过百度新版推出的拍照搜索后,你会发现,我们离钢铁侠的距离,只剩一点点了。10月30日的百度德尔塔俱乐部图像搜索媒体开放日,为我们揭晓了关于拍照搜索的诸多细节。百度深度学习研究院的视觉基础负责人,及百度的产品经理,向到场的观众展示了百度拍照搜索的炫酷体验,并共同探讨了前沿的图像识别技术趋势。

正如本次开放日的主题一图一世界,总体来说,听完这一切我直观的两个感觉是:1.拍照搜索即将真正改变世界。2.钢铁侠真的要来了。

不过,拍照搜索并不是一个特别新的概念,它重要在何处?为什么到现在才来改变世界?

寻找贾维斯

首先,人对世界的认识,90%来自视觉,移动设备上的摄像头,已经成为人类眼睛的延伸,成若是有人相伴就不那么苦为人体上新的感官,在人工智能领域,它的重要程度要远超过语音识别,这一点毫无疑问。

但源于同样的人工智能科技,图像识别的难度要远比语音为高。正如大家看到的,拍照不难,络也有了,自然语言的理解和搜索技术也已基本具备,难点在于图片搜索的两个经典问题:图片识别(图片上有什么)和图片反查(图片意味着什么)。这件事从百年前发现X射线,到登月后CT的发明,再到10年前冈萨雷斯的《数字图像处理》,以及OCR的广泛应用,一直到现在二维码的大行其道,从未停止过。

不过,这些大部分是在特定领域对特定对象的识别,真正具有普遍性的,带有智能色彩的图像识别研究,是源于1999年大卫罗威的sift数据提取算法,在这个基础上,各大公司才展开真正具备方向的研究。其中的,是Google在2006年开始的图片识别项目,以及由此衍生的,4年前推出的一个名叫Google Goggles的应用。

毫不夸张地说,Goggles整个成为了Google在这个领域的一场灾难。一个显而易见的事实是,推出这么多年,

很少有人真正用过这款应用,甚至连项目的主页都一度荒废得长草了。这里面当然有Google20%时间带来的不严谨,以及投入的不足,但主要还是研究方向上的失误。

这是一个什么样的失误呢?远在项目开始之前,Google就犯了一个方向性的错误。当时UGC红极一时,用户创造内容正是一门显学,myspace如日中天,Facebook迅速蹿红,于是Goggles团队也打算跟跟风,于是上线了一个卡梅隆大学助教发明的,给图片贴标签的小游戏,想利用人力贴标签的办法来解决图像识别的问题。

和所有小游戏一样,这个项目上线后不久玩家就腻了转投他处,而SEOer们却看上了这块宝地,开始了在标签里贴无关小广告的狂欢,更糟的是这个项目居然直到2011年才下线,成为Goggles的噩梦。

Goggles开始本来是利用Google擅长的算法和技术,将照片传回服务器分析,利用视觉运算算法归纳出图片的特征,再与数据库中的样本进行对比并提供搜索结果。比较典型的是Goggles上线时提供的一个功能,自动解答数独题。

这本来是个不错的思路,但是受技术的局限,从推出至今的4年里,Goggles到现在为止都只能给出有数的几种答案这是书。这是画。这是文字。这是条码。而当它遇到不认识的东西时,就会说:这是东西。明眼人一看就知道,这不就是个扫一扫的加强版吗,你甚至不知道后台到底是贾维斯,还是有人在孜孜不倦地贴标签?

从1到10000的距离

这件事也不是Google的错。从认识书、画、条码到认识大千世界上每一样东西的距离,好比从1到10000那么遥远。Goggles只是钢铁侠的面具,归根结底,它的智力还是要源于背后的贾维斯,即图片识别,或者说人工智能在读图技术方面的进展。今天我们回头看,它的关键在于深度学习这个研究方向上的进展。

深度学习是如何成为拍照搜索的关键的呢?2006年,Geoffery Hinton发表关于深度学习的重要论文,提出基于RBM的pretraining算法 ,为机器自主学习提供了可能,这直接导致哈佛教授德哈里斯研究出全球人工大脑CBM。此后,Google也于2011年开启了Google Brain项目,由华裔科学家吴恩达领衔,此后,吴在2012年在一个有16000台电脑搭建的有10亿个神经元的神经络中,成功使机器仅从一个单词cat开始,自主识别了猫的样子,识别率达到81.7%。

这在业内引起了轰动,评论开始认为Google将成为一家机器学习公司而非搜索公司,同时更多巨头开始进入这个领域。但是,在将吴恩达的成果应用于Google街景、语音识别、广告和无人驾驶汽车等项目后,Google的态度又回到Goggles开始时的原点:认识了书和画么?好啊!那就先这样吧!有迹象显示,Google在将深度学习推广至日常方面的态度并不够积极,在投入上也缺乏继续的动力,典型的例子是2013年和2014年,百度、微软和Facebook纷纷拿出超越Google Brain的成果,而吴恩达终转投百度加入百度大脑项目。

为什么是百度?事实上,百度早在2013年即成立了深度学习研究院,是Google之外,人工智能四大巨头(百度、微软、Facebook、IBM)中早涉足此研究的一个。而百度的决心也格外明确:深度学习研究院一成立即由李彦宏领衔,在人才、架构、数据三方面以全球水平进行投入,一年后百度硅谷研究中心挂牌时,百度大脑项目的成果悄然出炉,震惊业内:这个由200亿个神经元组成的大脑已有岁孩子的智力,规模是此前Google Brain的20倍!

这就是从1到10000的距离,它让真正改变世界成为真正的可能。那夏有凉风冬有雪么,深度学习究竟为百度的拍照搜索带来了怎样的优势?一个真正改变世界的产品究竟是什么样?

百度:梦幻的盔甲

回到开头提到的百度开放日那一幕,百度深度学习实验室视觉基础技术负责人余轶南在发言中提到了几个之:百度大脑是由百亿级参数构成的世界上规模的深度神经络,已拥有的深度学习算法。

那么问题来了,什么样的算法算是呢?传统的图像识别算法一般只有一层运算即像素-数据,百度的算法则更接近人类大脑的分层结构及行为,分为两欢喜像素-边界-形状-整体视觉的多个层次。更关键的是,百度突破了深度学习旧算法在达到一定数据量后进入停滞期的瓶颈,新算法借助海量数据-产品-大量用户的良性循环,可以达到持续的高速进化。

很多人并没有注意到的是,百度实际上已经做到了在人脸识别、OCR、以图读图等多个领域的技术,同时借助百度大脑世界规模的GPU服务器集群,搭建了全球的同时理解图像和自然语言的分布式并行架构,可灵活配置适合于不同应用的各种深度络结构,催生了一系列体验的玩法,例如看图说故事,百度魔图的像明星脸,百度翻译、作业帮等高度智能的OCR表现,甚至在英文识别上也做到了全球。

从余轶南展示的盲测结果来看,与竞品相比,百度识图识别结果和检索结果的坏结果比率仅为16%和18%,表现在搜索结果上就是一眼即可看出哪个是百度的识图搜索结果。另一个比较通俗的例子是,当拍照进行实物搜索时,百度不仅能辨认书籍、logo和蔬果,更能认出玩具、服饰和手提包。

如此这般,也就不难理解百度为什么要在硅谷搞实验室,要高薪聘请吴恩达。还是拿钢铁侠来做解释,百度大脑好比贾维斯,而接入百度大脑的百度等则成为拥有所见即所搜的梦幻盔甲。而未来,一旦百度的贾维斯进化出沟通物理世界和虚拟世界的强大能力,即通过计算机视觉、3D建模和传感络等手段进行探索和发现,拥有将现实虚拟化,同时也能将虚拟建模进行物理生成的能力,那么百度的搜索将全面介入感知-思考-决策、行动、发现、创造的每个环节。到那时,这个一图一世界的世界将会是什么样?想想都有些小激动呢。

2013年合肥零售D轮企业
2009年东莞生鲜食品Pre-B轮企业
2013年东莞金融C轮企业
推荐阅读
图文聚焦