学院新闻 - 北京大学心理与认知科学学院

近日，北京大学心理与认知科学学院彭玉佳研究员在Psychonomic Bulletin Review期刊上发表了题为Patterns of saliency and semantic features distinguish gaze of expert and novice viewers of surveillance footage的研究论文，基于两种视觉计算模型揭示了闭路电视专家和新手之间，社会认知推理过程背后的不同策略。

Background

在观察他人行为时，人们可以快速解析他人的意图和社会关系。然而，人们在复杂的现实世界互动过程中如何分析社会信号，视觉系统如何从不同层面提取社会特征，以及这些社会特征如何交互影响社交认知，目前还存在很多未知。

在本研究中，我们利用监控闭路电视（CCTV）视频中记录的真实人类活动以及监控专家来尝试回答这些问题。监控闭路电视系统通常采用一系列摄像机，部署在复杂的城市环境中。监控专家会对摄像机录制的视频进行实时监控，以识别人群中是否存在可能带来负面冲突的事件（如，打架斗殴、抢劫），从而及时采取应对措施。这些专业监控专家积累了丰富的经验，为回答社会意图推理背后有哪些高效的策略，提供了独特的视角。

（图片来自网络）

Methods

在本研究中，我们对监控专家和无经验的普通人在观看相同监控录像时的眼动轨迹进行了分析。研究基于眼动捕捉技术，收集被试观看视频时的注视点，进而对以注视点为中心的图像刺激进行了计算分析。为了提取视觉特征，研究使用了两种计算模型：显著性模型（Saliency model）和深度卷积神经网络模型 (CNN model)。如图所示，显著性模型用于捕捉吸引注意力的低级图像特征（如，颜色、运动、朝向信号），而深度卷积神经网络模型则用于提取CNN全连接层中抽象高级的视觉特征，以捕捉被试关注视觉场景中的语义信息。

Results

我们发现，监控专家的眼动注视与新手不同，他们会积极关注具有不同显著性和语义特征模式的视觉内容。有选择性地利用视觉信号中不同层次的信息，实验有害意图的有效检测。具体而言，无论是基于显著性模型提取的低层次视觉线索，或基于CNN 提取的抽象视觉表征，机器学习分类器都能将专家与新手区分开来。同时，监控专家在使用低级和高级视觉信号方面都具有更高的一致性，可能采用了共同的策略来关注某些视觉线索模式（如某些运动模式），这可能有助于更高效地检测社会交互中危害性意图。

基于对AlexNet输出标签分析所示，监控专家表现出更高的观察面部和衣服区域的概率，而新手可能会被视频片段中的纹理和颜色信息所干扰。因此，高级视觉信号可能使监控专家更快在视频中探测到暴力事件的发起人，快速捕捉暴力意图，而新手则可能会被路灯或移动的交通工具等抓人眼球的低级视觉信号分散注意力。

此外，通过研究解码准确率随时间的变化，我们发现在不同的时间阶段，这两类特征可能会分别主导视觉观察。在早期阶段，显著性线索的贡献可能更大，而在视频观察的后半期，CNN提取的抽象特征可能会表现出更强的主导性，这表明社会意图推断可能从低级视觉线索开始，逐渐过渡到语义级视觉处理。

综上，本研究将眼动数据与计算模型分析相结合，从一个独特的角度揭示了监控专家在分析社会意图时所采取的可能策略。目前的研究结果不仅揭示了在生物系统中，丰富的经验是如何形成对复杂刺激的视觉处理的，也展示了使用计算模型来分析不同群体所关注的视觉信息的前景。计算机视觉算法如果既能识别图像中的初级视觉模式，又能在抽象语义层面上对人际关系进行编码，就有可能提高人工智能推断社会意图的能力。

参考文献

Peng, Y., Burling, J.M., Todorova, G.K. et al. Patterns of saliency and semantic features distinguish gaze of expert and novice viewers of surveillance footage. Psychon Bull Rev (2024).

原文链接： https://doi.org/10.3758/s13423-024-02454-y

2024-01-27

专家与新手差在哪里：让卷积神经网络来回答社会认知背后的个体差异