8. ⼈类的视觉原理

深度学习的许多研究成果,离不开对⼤脑认知原理的研究,尤其是视觉原理的研究。

1981 年的诺⻉尔医学奖,颁发给了 David Hubel(出⽣于加拿⼤的美国神经⽣物学家)和TorstenWiesel,以及 Roger Sperry。前两位的主要贡献,是“ 发现了视觉系统的信息处理”,可视⽪层是分级的。

⼈类的视觉原理如下:从原始信号摄⼊开始(瞳孔摄⼊像素 Pixels),接着做初步处理(⼤脑⽪层某些细胞发现边缘和⽅向),然后抽象(⼤脑判定,眼前的物体的形状,是圆形的),然后进⼀步抽象(⼤脑进⼀步判定该物体是只⽓球)。下⾯是⼈脑进⾏⼈脸识别的⼀个示例:

对于不同的物体,⼈类视觉也是通过这样逐层分级,来进⾏认知的:

我们可以看到,在最底层特征基本上是类似的,就是各种边缘,越往上,越能提取出此类物体的⼀些特征(轮⼦、眼睛、躯⼲等),到最上层,不同的⾼级特征最终组合成相应的图像,从⽽能够让⼈类准确的区分不同的物体。

那么我们可以很⾃然的想到:可以不可以模仿⼈类⼤脑的这个特点,构造多层的神经⽹络,较低层的识别初级的图像特征,若⼲底层特征组成更上⼀层特征,最终通过多个层级的组合,最终在顶层做出分类呢?

答案是肯定的,这也是许多深度学习算法(包括CNN)的灵感来源。