CNN：果蝇视觉理解能力几何？

更新时间:2023-07-31 21:30:50 阅读：评论：0

CNN：果蝇视觉理解能⼒⼏何？

image

⼤数据⽂摘出品

梦幻的图片

编译：毅航、王念、云⾈

众所周知，⿊腹果蝇（Drosophila melanogaster）⽣活在神秘的社交性的触觉和⽓味世界中，但他们能够在多⼤程度上感知和整合静态视觉信息是⼀个备受争议的热门话题。⼀些研究⼈员指出⿊腹果蝇光学系统的分辨率是有限的，但是其他研究⼈员则注意到在⿊腹果蝇看似相同的外表下，有证据表明他们实际上拥有惊⼈的个体识别和视觉学习能⼒。

在本篇⽂章中，我们将利⽤机器学习从理论上证明每个⿊腹果蝇在视觉上是不同的。我们还将使⽤果蝇的视觉系统与当前卷积神经⽹络的惊⼈相似性来研究⿊腹果蝇的视觉理解能⼒。我们发现，尽管它们的光学分辨率有限，但是⿊腹果蝇的神经元结构能够提取和编码丰富的特征集，允许蝇类以惊⼈的准确度重新识别同种个体。这些实验证明了⿊腹果蝇⽣活在远超⼈们预期的更加复杂的视觉世界中。

介绍

有越来越多的证据表明⿊腹果蝇⽣活在⼀个令⼈惊讶的丰富和复杂的世界中，这个世界包括群体⾏为，社区学习以及攻击⾏为认知。这些社会⾏为通常被认为是与视觉识别⽆关的，因为⿊腹果蝇的复眼被认为视⼒不⾜，以⾄于不能在这些⾏为中发挥作⽤。果蝇的复眼有⼤约有850个镜头单元（⼩眼），每个都能在空间中捕获⼀个点，所以这样眼睛的分辨率肯定很低。此外，传统上认为由⼩眼肌间⾓度决定的细节⽔平使得除了运动或规则模式之外的任何东西都⽆法被⿊腹果蝇辨别（图 1B）。

image

图1. ⿊腹果蝇的理论视⼒。路人甲是什么意思

代表了各种理论压缩后的果蝇图⽚。A：雌性⿊腹果蝇的图⽚通过32×32压缩重新调整⼤⼩。 B：相同的图⽚，但是使⽤AcuityView调整了3个体长的观察距离，使⽤4.8°的肌间⾓。C：相同的图⽚和距离，但使⽤由Juusola等⼈确定的有效视⼒的保守估计约1.5°。

然⽽，最近的⽣理实验表明，只要它们以特定的速度呈现（对于⼀个被拴住的蝇类），⿊腹果蝇对细节的反应可以达到1.16°。这些速度恰好与⿊腹果蝇的⾃然扫视步态⼀致，这强烈表明⾃然⾏为下的⿊腹果蝇具有⽐4.8°的肌间⾓更精细的分辨率。这种超敏锐度是在感光器⽔平下发现的（由于横纹肌运动改变了光接收的⾓度），这意味着它将允许⼤部分视觉⽹络⽤于信息处理。在这种超敏锐度和果蝇社交所需的视觉距离下，⼩眼的数量⽽⾮⼩眼肌间⾓度成为了限制因素（图1）。这种敏锐度可能会使它们与意蜂（Apis mellifera）处于相同的视觉等级（尽管分辨率较

低），并赋予他们结合其它的视觉特征来识别出⼈类的⾯孔的能⼒。

这种时空编码和增加的视敏度可能解释了最近的研究，这些研究表明⿊腹果蝇不仅可以理解其它蝇类，还可以使⽤视觉解码社会意义（例如雌性果蝇选择雄性果蝇表型和果蝇主动暴露于寄⽣蜂）。综合起来，这些结论⼤⼤提升了果蝇在物体识别中更⼤程度地利⽤视觉的可能性，甚⾄可能使⽤它来区分物种或性别（⽤于补充其它已知的传达此类信息的嗅觉线索）。

即使使⽤⿊腹果蝇的超敏锐度光感受器，所接收的图像也仅为约29×29单位（或像素，图1）。我们想知道这个低分辨率图像中是否包含⾜够的绝对信息来识别彼此之间的个体。⼀种⽅法是对深层卷积⽹络（DCN）进⾏⼯程化以区分单个⿊腹果蝇，因为DCN被设计为学习、提取和使⽤图像中发现的任何有⽤特征，如果⾼度⼯程化后的DCN有⾜够的个体⽔平差别，我们就会想要研究⿊腹果蝇是否也能利⽤这种低分辨率图像并从中提取有意义的信息。如果每个个体果蝇看起来都是独特的，并且⿊腹果蝇的视觉⽹络具有⾜够的能⼒，视觉可能还在识别物种或性别以外的过程中发挥作⽤，这或许有助于确定社交场合中熟悉或不熟悉的同种⽣物。

果蝇视觉系统的⾼度结构化和分层组织（图2C）表明了蝇类的视觉系统是如何从低分辨率图像中提取信息的。在输⼊处，⼩眼被逐个包装，但是它们单独调节的光感受器在空间上被布置成穿过感受区域的六单元卷绕的滤波器。反过来，这个光感受滤波器的输出是连接到⼏个“列”光感受器输出的下游髓质神经元的输⼊。这种滤波器卷积与使⽤来⾃⼀个滤波器的输出作为另⼀层的“特征映射”相结合，是当今主导计算机视觉的DCN 的⼯程化架构的标志（图2A中展⽰出了⼀个这样的DCN）。正如DCN可

以采⽤低级图像表⽰并将它们编码为语义表⽰⼀样，⿊腹果蝇的视觉系统似乎⾮常适合揭⽰图像中的语义。

数学符号的读法

image

乌拉那拉青樱图2. 我们的蝇眼融合了⼯程和⽣物架构。

“标准”卷积⽹络的⽰意图，我们的蝇眼模型和果蝇的简化视觉连接组。A：Zeiler和Fergus的体系结构，

接收个体⿊腹果蝇的原始181×181像素图像。 B：我们的蝇眼模型，接收个体果蝇的29×29缩⼩图像，并显⽰特征图之间的连接。最初的三个特征图是定制的6像素卷积滤波器

（'R1-R6'，⿊⾊路径）和两个1×1卷积滤波器（'R7'和'R8'，红⾊路径）。所有其他卷积都是本地连接的滤波器。有关完整的连接图，请参见S1 Table。C：飞⾏视觉回路的简化图，其接收另⼀个⿊腹果蝇的相同⽐例缩⼩的图像。我们模型中实现的神经元之间的连接被展⽰出来，其表明层之内和层之间的连接和联系。

在这项⼯作中，我们考察了⿊腹果蝇是否可以在理论上分类和识别其复杂的视觉环境。为了确定在⿊腹果蝇的社会⾏为中可以获得多少绝对潜在的视觉差异，我们研究了⼈类和⼈类启发的深度卷积模型在多天内重新识别单个⿊腹果蝇的能⼒。

为了研究⿊腹果蝇是否能够在蝇类之间使⽤这种个体⽔平的视觉差异，我们在⼀个同种重新识别范式中研究了果蝇视觉系统的模型。本研究建⽴在超敏锐视⼒的同种信息和⽣理证据的⾏为结果的基础上，并提供了⼀个原则证据，以消除⼀个经常被吹捧的论点，即⿊腹果蝇的视觉能⼒仅限于低级物体和模式检测。在这⾥，我们将提出证据表明⿊腹果蝇可能会看到并⽣活在⽐过去⼈们所意识到的更丰富的社会环境中。

沈星材料和⽅法

简化的⿊腹果蝇眼睛模型

我们使⽤标准深度学习库（Keras）实现了虚拟飞⾏视觉系统。我们的项⽬使⽤⼤约25,000个⼈⼯神经元，⽽果蝇在每个视觉半球中有⼤约

60,000个神经元。我们故意没有模拟在结构上暗⽰出对运动反应的神经元，因此我们能够聚焦在整个髓质的“模块化”神经元（具有1个神经元/

柱）上。神经元类型之间的联系是从已发表的连接组中提取的。我们在模型上强加了⼈为的层次结构，消除了神经元“⼦类型”之间的⾃我连接（即L1和L1之间没有连接，或L1和L2），虽然我们允许初始层进⼊多个下游层，但我们消除了“上游”连接。最后的⼩叶状⼈⼯神经元模仿Wu 等⼈的研究成果，⼩叶状⼈⼯神经元的层次根据其轴突穿透深⼊系统进⾏排序。我们对果蝇视觉系统进⾏建模的能⼒进⼀步局限于连接性，忽略了信号（兴奋性或抑制性）以及神经元的内在膜特性。⼀旦这些特性被发现并将其集成到连接组中，连接组就能创建更丰富的⽣物模拟。除了从⽣物学获得灵感，该模型在图2B中展⽰了其它灵感来源（图2C）。S1 Table描述了完整的连接图和层次结构，S2表展⽰了该模型在传统图像分类数据集上的⽐较性能。S1 Methond中提供了其他详细信息。

蝇类数据获取

⿊腹果蝇在25-12℃的12h-12h亮-暗循环中饲养。⽻化后1-4⼩时收集10只雄性和10只雌性并分别饲养。在第三天，将⽻化后的蝇单独地吸⼊到圆形丙烯酸培养⽫（直径60mm，⾼2mm）中。⽤标准顶置LED灯照明这些蝇，⽤GRAS-20S4M以灰度拍摄15分钟，每秒16帧。连续三天重复这⼀过程，每只蝇产⽣14,400×3张图⽚。每次拍摄都在ZT 8的2⼩时内完成。收集了20只蝇的三个独⽴数据集。

果蝇数据处理

数据集中的每个视频都使⽤CTRAX进⾏跟踪，跟踪结果中的位置和朝向信息都会⽤来对图⽚进⾏校正。所以每个图⽚中的果蝇都处于中⼼位置，并且头朝上。所以这些图⽚包含了果蝇在采集场景中的各种⾓度的信息，背部的、腹⾯的和侧⾯的都有。训练集合中包括了第⼀天和第⼆天等量的数据，包括每只果蝇前75%的数据（12240帧）。验证集合是最后的15%的数据（2160帧）。测试数据集是第三天采集的所有数据。所有的数据需要进⾏标准化操作，也就是⽤原始数据减去所有数据的均值再除以标准差。对于ResNet18、Zeiler和Fergus模型，输⼊的181181的数据需要做适配，适配⽅法包括：（1）降低成3333，中⼼剪裁成2928，然后整体扩⼤成224224⼤⼩；（2）扩⼤成256256，中⼼剪裁为

224224（有效利⽤中⼼的158*158的像素）。

⼈类的表现

北京上方山

为了验证⼈类的表现，这⾥⽤Matlab设计了⼀个GUI图形程序，程序中展⽰了⼈类观察者对于果蝇的三个⾓度的影像，分别是背部、腹部和侧⽅向。然后要求观察者从第3天获得的20幅图像（20只果蝇）中选择其中⼀幅属于实例果蝇（S3和S4图）。注意这个过程其实是⼀个⽐较/匹配的设定（compare/match tup）⽽不是⼀个学习和泛化的过程。这些图⽚会随机的被变成29×29。

结果

在本⽂的⼯作中，我们想知道各种结构（⽆论是否植根于⽣物学）是否能够检测果蝇在若⼲天之间的差异（这显然是⼀个⾮⼈⼯任务）。我们获得了三轮的数据，每轮中都有10只公的和10只母的果蝇，观察了连续3天的时间。我们知道年龄和经验会对果蝇的识别产⽣细微的影响，所以我们在第⼀天和第⼆天的时候对⽹络模型进⾏训练，然后在第三天的时候对他们进⾏识别。我们使⽤ResNet18来验证系统的有效性，它达到了⼈类识别的⽔平（Zeiler 和 Fergus）。这些结果展⽰在表格1中（Table 1）。

image

表格1. ⿊腹果蝇模型识别性能

作为基准，我们使⽤了ResNet18的结构（请见S1 Fig）。这是实验中能够获得最⾼性能的⽹络结构，它能够得到0.94的F1-score（使⽤三个数据集）。虽然平均性能良好，但我们注意到实验中存在个别⽐较特殊的果蝇，这些果蝇在⼏天内会变得很难识别（例如，在样本集2中，果蝇10在第3天的准确率为37％，⽽其他两个果蝇S4表之间的混淆程度相等）。迫使图像通过瓶颈（bottleneck，这种操作保证所处理的信息内容和fly-eye模型使⽤的降分辨率的信息类似）操作会让ResNet18的F1-score降低0.11。但是Zeiler和Fergus结构对于bottleneck操作鲁棒性很⾼，在这种结构下F1-score只降低了0.08，但是达不到ResNet18的⾼精度。

Fly-eye模型获得了⼀个相对来说较⾼的F1-score=0.75，这个结果没有⽐复杂的ResNet18（在低分辨率情况下）精度低很多。为了消除Fly-eye

模型测量绝对⼤⼩和形状以及强制提取相对特征的能⼒，我们随机地将图像（训练和测试）⼤⼩重新调整了多达25%，⽽不保留⽐例（参见S2 Fig⽰例）。我们的fly-eye系统能够达到超过⼈类的性能，即便是在没有进⾏绝对⼤⼩测量的情况下也是如此。在图⽚的识别⼯作中，它能得到0.55 F1-score的性能。我们还发现，fly-eye模型⼏乎不会错误的将公的果蝇识别成母的（在S5-S7表格中，当重新识

别ID在性别上崩溃时，F1-score超过了0.99）。

为了得到⼈类识别的性能基线，我们找了⼀些志愿者来识别果蝇（S3和S4）。这是⼀个别具挑战的任务，因为果蝇⽣活在⼀个固定的空间中，⽽⼈能够通过各个⾓度的信息进⾏判断。因为这项任务不是⼀般的物体识别，我们找的志愿者都是⼀些很有经验的fly-pushing科学家。⼈类识别的效果并不好，但是波动不⼤，平均的F1-score=0.11（当像素缩⼩到29×29的时候F1-score=0.08，如果将原图给出的话，F1-score=0.08）。

讨论

我们的结果表明果蝇有从视觉环境中提取语义信息的先天能⼒。虽然我们⽬前还在研究它们究竟是怎么对这个世界编码并认识世界的，但我们也不应该忽视它的视觉理解能⼒。

从低分辨率的图像中理解其意义并不是什么新鲜的想法，例如在32×32的CIFAR10数据集上CNNs能成功进⾏识别，也能在其他的数据集上成功应⽤。我们还注意到，我们的fly-eye模型在⼀个这样的分类任务（CIFAR10上的F1得分是0.54，见S2表）上的表现⽐较差，这个任务包含对象的⼤范围⽐例和位置变化。

对⽆法应对规模和⼤⼩的可变性的⼀个解释是，与其他结构不同，⿊腹⼤蠊的视觉系统能够维持输⼊

的维度（柱状髓质神经元）。DCN通过汇聚层和跨步卷积之类的⼩技巧来降低维度。这就给低级特征检测器带来了更⼤的位置不变性。如果没有它们，我们的果蝇眼模型只有当物体的距离固定时才能表现的不错。因此，⼈类倾向于假定，每个⼈都有先天的依赖经验的距离，在这个距离的前提下，视觉信息能够被优先理解。并且这可能是社交距离和交互距离的决定性因素之⼀。

从该模型⾃⾝和它强⼤的编码能⼒（不⽌是对于简单的“looming”和“movement“的编码）中，我们可以预测出，最⾼等级的特征图（feature maps）可以对应于视觉系统中的丰富的语义含义。然后这些⼩叶神经元会将复杂事物的识别进⾏编码，然后会刺激他们产⽣不⽌是简单的避免对象（object-avoidance）⾏为。

虽然⼀些⼩叶柱状神经元（如LC11）似乎专门⽤于⾼敏感度的⼩物体运动检测，但是其他神经元似乎在编码更复杂的信息。这些其他LC神经元（如LC17）在受到刺激时似乎会引发社会背景依赖⾏为。

我们也了解了其他使⽤DCNs对昆⾍种类分类的研究。但是其中最相关的研究（关于⽣物体识别）仅在1分种内就完成了（IDTracker2.0）。在此研究之前，DCN仅对时间上⾮常接近的图像有效。我们观察到特定果蝇的反常精度损失，⼀些果蝇的准确度低于40%（S4表）。

这种在⼏天内重新识别果蝇的能⼒开启了实验的可能性，特别是考虑到这种性能是通过静态图像来评估的（16fps产⽣⼤约1000个ID/min的估值）。这与⼈类重新识别果蝇的能⼒形成鲜明的对⽐，后者

在低分辨率下⼏乎没有成功的概率。

很显然，所有的模型都可以在⼀定程度上学会识别果蝇，并强调果蝇的个体⽔平差异。对于DCN⽽⾔，重新识别果蝇实际上⽐CIFAR10更容易（⾄少对于在相同距离处获得的果蝇的居中图像的情况下）。即使是在某种意义上和⼈类的表现能媲美的模型也⽐⼈类的表现好上10倍。⼈类⽆法将果蝇分辨开的原因还是个迷。保险

⽆论区分个体果蝇是否具有进化上的好处，⼈类确实具有令⼈难以置信的模式识别能⼒。这可能只是因为缺乏经验（虽然我们尝试通过仅适⽤经验丰富的果蝇研究⼈员作为志愿者来标记解决这个问题）或者是因为更加神秘的模式识别盲点造成的。在任何⼀种情况下，这些研究结果都会促进新的实验，以进⼀步了解⼈类视觉和经验的机制以及它们为何会在这种情况下失败。

机器学习的从业者不断地推动深度⽹络，现在他们也更多地使⽤⼀些由⽣物学启发的设计和训练算法。随着他们变得更具有⽣物学的现实性，神经⽣物学家可以使⽤这些模型来⽣成视觉系统中信息处理⽅式的假设。

我们认为本⽂的研究⾮常适合将两个领域的研究联合起来，以继续解开进化论对于视觉处理的解决⽅案。这个新领域提供了⼀个简单的，基因和实验易处理的机制。通过它我们可以观察到视觉系统的运作，这⽆疑将揭⽰果蝇以及我们所有⼈观察这个世界的秘密。

结论

这些结果有助于解释最近传统意义上⽐较有争议的发现，即果蝇可以解决相对详细的视觉意义（雌性选择雄性和寄⽣蜂的暴露）。我们在⽂中展⽰了每个果蝇具有视觉上可区分的特征，这些特征会持续数天。这⼀事实，加上他们的超敏锐度和他们的视觉⽹络的理论能⼒，是反对果蝇只能看到模糊的运动的传统观念的坚实论据。事实上，在某些情况下，果蝇可能有能⼒看到和区分⼀个更为多样性的视觉世界，甚⾄可能⽐我们看到的还要

精彩。