어떤 논문이냐EEG로 사람이 지금 뭘 보고 있는지 맞추는 걸 brain-to-image retrieval이라고 부른다. 방식은 대체로 비슷하다. CLIP 같은 사전학습 비전 모델로 이미지를 임베딩하고, EEG 신호를 인코더에 태워서 같은 임베딩 공간으로 밀어넣은 다음, 대조 학습(contrastive learning)으로 이미지-뇌파 쌍을 붙여준다. 문제는 이게 생각보다 잘 안 된다는 거였다.이 논문(UBP, CVPR 2025)은 왜 잘 안 되는지를 두 가지 갭으로 설명한다. 하나는 System GAP이다. 사람 눈은 카메라가 아니라서, 중심와(fovea)만 고해상도로 보고 주변부는 뭉개서 처리한다. 그러니 EEG에는 애초에 원본 이미지의 고주파 디테일이 담길 수가 없다.모델한테 "이 흐릿한 뇌 신호로 ..