百度技术沙龙第46期:读图时代的识图技术

发表于 2014/1/20 下午7:59:53 阅读（3833）

2014年江苏卫视的大型科学励志真人秀节目《最强大脑》风靡全国。《最强大脑》第一期晋级选手郑才千，他挑战的项目是两万多块不同色块组成的魔方墙，现场评委调整其中三个色块，郑才千在很短时间之内找出了这三个不同的色块。这样的读图和识图能力是何等神奇。很有意思的是第一期节目百度董事长李彦宏和著名歌手周杰伦同台演绎“双董合璧”，李彦宏董事长从科技角度遴选出“最强大脑”。近期清华大学的一项视频监控人脸识别技术与系统项目通过了教育部科技成果鉴定，可以识别静态图片和动态视频的人脸信息，会从技术手段上解决一户多名等事情发生。图像处理和视频分析在我们的日常生活中越来越重要。我们现在处于一个智能手机和平板电脑日益普及的时代，图像和视频的分享已经成为大家的一种生活方式。深度学习（Deep Learning )在语音识别和图像识别的应用越来越广，特别是在图像处理领域。

2014年1月18日下午，百度技术沙龙第四十六期在车库咖啡举行。百度深度学习研究院（IDL）主任研发架构师黄畅博士和清华大学智能技术与系统国家重点实验室副主任刘长松副教授与广大的程序员朋友分享读图时代的识图技术。

黄畅博士和大家分享的是读图时代的识图技术。他谈到图像和视频逐渐成为人们记录和分享信息的主要方式，图像和视频占了80%以上的非结构化数据。深度学习很通俗的说就是构建象人脑一样的处理数据，特别是海量的非结构化数据，模仿人脑机制解释数据和预测。知名人工智能专家Marc Ranzato 对于深度学习的定义是按照深入学习方法，通过使用一个序列的非线性处理阶段来预测。从2006年开始，深度学习在北美知名高校持续升温。加拿大多伦多大学和蒙特利尔大学，美国的斯坦福大学对于深度学习领域研究领先。脸谱，微软，谷歌和IBM也在深度学习领域收获很多。MIT技术评论评选2013年十大突破性技，深度学习位于首位。2013年百度成立了深度学习研究院，并命名为Institute of Deep Learning。
2014年百度深度学习研究院启动全球范围内的“少帅计划”，主要针对30岁以下的优秀人才甄选和培养。百度深度学习研究院的技术可以使系统识别的准确率提高很多。百度IDL的识图技术应用很多，其中百度相似图像搜索和人脸识别百度魔图PK大咖很有意思，很多年轻人都喜欢。黄畅博士谈到提到了识图技术的一些趋势有增强现实和人机交互。其中移动智能终端的识图技术增强现实会涉及到精确定位。

刘长松副教授和大家分享的是读图时代及应用。他重点谈到了清华大学研究开发的统一平台多文字识别系统和人脸识别系统。清华大学的统一平台文字识别系统：解决文字的行方向的技术:提取文本区域，采用几何变换对于文本图像进行矫正对。图像矫正对齐问题不仅在OCR 中存在，多数图像识别应用也会碰到。清华大学的人脸识别系统，光照可控的正面人脸识别已经得到了应用，可以识别人的笑脸。如何做到人脸的图像超分辨率呢？增强图像的细节和结构。三维人脸建模利用姿态估计，姿势点定位，基于稀疏点快速快速重建人脸。2007年，清华大学的统一平台文字识别系统通过了专家鉴定。2013年，清华大学“TH-IDvs视频监控人脸识别技术与系统”项目通过鉴定。

Open Space（开放式讨论环节）黄畅博士的话题是图像识别在移动互联网的应用刘长松副教授的主题是图像检测和识别。值得关注的是除了软件公司的程序员朋友，还有高校的研究生朋友对于深度学习的算法，神经网络等问题很感兴趣。