AI Paper/Multimodal & Representation

[논문 리뷰] UBP - Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior

준성(JunSeong) 2026. 7. 1. 19:26

어떤 논문이냐

EEG로 사람이 지금 뭘 보고 있는지 맞추는 걸 brain-to-image retrieval이라고 부른다. 방식은 대체로 비슷하다. CLIP 같은 사전학습 비전 모델로 이미지를 임베딩하고, EEG 신호를 인코더에 태워서 같은 임베딩 공간으로 밀어넣은 다음, 대조 학습(contrastive learning)으로 이미지-뇌파 쌍을 붙여준다. 문제는 이게 생각보다 잘 안 된다는 거였다.

이 논문(UBP, CVPR 2025)은 왜 잘 안 되는지를 두 가지 갭으로 설명한다. 하나는 System GAP이다. 사람 눈은 카메라가 아니라서, 중심와(fovea)만 고해상도로 보고 주변부는 뭉개서 처리한다. 그러니 EEG에는 애초에 원본 이미지의 고주파 디테일이 담길 수가 없다.

모델한테 "이 흐릿한 뇌 신호로 저 선명한 4K 이미지를 맞춰봐"라고 시키는 꼴이니, 정보량 자체가 비대칭인 거다.

다른 하나는 Random GAP이다. 같은 사진을 두 번 봐도 뇌 신호는 매번 다르게 나온다. 이번엔 주의(attention)가 고양이 얼굴에 꽂혔다가 다음엔 배경으로 옮겨가기도 하고, 무의식중에 다른 개념을 연상하기도 한다. 여기에 전극 접촉 불량 같은 기술적 노이즈까지 더해지니, 뇌 신호는 신호 대 잡음비(SNR)가 낮고 변동성이 클 수밖에 없다.

Figure 1
Fig 1. RSVP 실험 패러다임과 System GAP, Random GAP의 발생 지점

실제로 논문에서 같은 자극을 80번 반복 측정한 EEG를 겹쳐보면(Fig 2-a), 평균선(빨간 선) 주변으로 신호가 꽤 넓게 흩어져 있는 걸 볼 수 있다. 심지어 서로 다른 두 자극에 대한 EEG를 겹쳐도(Fig 2-b) 파형이 잘 안 갈린다.

피험자별로도 변동성 편차가 크다(Fig 2-c, d). 뇌 신호 자체가 원래 이렇게 시끄럽다는 걸 먼저 인정하고 들어가는 게 이 논문의 출발점이다.

Figure 2
Fig 2. 동일 자극 반복 측정 시 EEG 변동성(a, b)과 피험자 간 편차(c, d)

기존 방법들(NICE, ATM-S, VE-SDN 등)은 이 갭을 무시하고 이미지와 뇌 신호를 곧이곧대로 정렬시켰다. 그 결과 모델이 학습 데이터의 노이즈 패턴까지 외워버리는 과적합이 발생했고, 새로운 데이터에 대한 일반화 성능이 떨어졌다.

UBP는 이 갭을 모델이 억지로 학습하게 두는 대신, 아예 데이터 쪽에서 미리 갭을 줄여주자는 접근이다.

기본 설정: 뇌 신호와 이미지를 어떻게 정렬시키나

본격적인 방법 얘기 전에 기본 틀부터 짚고 가자.

이미지 xv와 거기 대응하는 뇌 신호 xb가 쌍으로 주어진다. 사전학습되고 고정된 비전 인코더 fV가 이미지를 임베딩하고, 학습 대상인 뇌 인코더 fB가 뇌 신호를 같은 차원의 공간으로 임베딩한다. 비전 인코더는 CLIP의 비전 브랜치(OpenCLIP 가중치)를 그대로 가져다 썼다.

학습은 대조 학습으로 이뤄진다. 진짜 짝인 (이미지, 뇌 신호)는 가깝게, 무작위로 섞은 가짜 짝은 멀게 만드는 symmetric cross-entropy(SCE) loss를 쓰는데, 풀어 쓰면 이렇다.

LSCE(fB)  =  − Exv,xb log exp( fV(xv)TfB(xb) / τ )Exb[ exp( fV(xv)TfB(xb) / τ ) ]
    − Exv,xb log exp( fV(xv)TfB(xb) / τ )Exv[ exp( fV(xv)TfB(xb) / τ ) ]
이미지→뇌 방향과 뇌→이미지 방향, 두 방향을 동시에 맞추는 대칭 손실이다. τ는 온도 파라미터, 위 첨자 T는 전치(transpose), 아래 첨자의 마이너스는 무작위로 뽑은 가짜 샘플을 뜻한다.

여기까지는 CLIP 스타일 대조 학습을 그대로 뇌-이미지 쌍에 옮겨온 것뿐이다. 문제는 다음 단계, 이 정렬 과정에 System GAP과 Random GAP을 어떻게 반영하느냐다.

핵심 아이디어: Uncertainty-aware Blur Prior

UBP의 방향은 단순하다. 뇌 신호를 억지로 선명하게 만들려 하지 말고, 이미지 쪽을 뇌가 감당할 수 있는 수준으로 흐리자는 거다.

두 개의 컴포넌트로 나뉜다. System GAP을 겨냥한 Blur Prior, 그리고 Random GAP을 겨냥한 Uncertainty Quantification이다. 전체 흐름을 그림으로 보면 이렇다.

x_v 원본 이미지 Blur Prior radius r fovea blur x̃_v 블러된 이미지 f_V 고정된 CLIP 비전 인코더 h_v x_b 뇌 신호(EEG) f_B 학습되는 뇌 인코더 h_b Contrastive Loss L_SCE(h_v, h_b) 유사도 행렬 S 신뢰구간 벗어난 정도로 다음 iteration의 r 갱신
UBP 전체 학습 파이프라인. 이미지는 blur prior를 거쳐 인코딩되고, 유사도 분포를 기반으로 blur radius가 매 iteration마다 갱신된다

Blur Prior로 System GAP 줄이기

가장 단순한 버전은 그냥 가우시안 블러다. 커널 반지름 r짜리 가우시안으로 이미지를 뭉갠다.

xblur(i,j)  =  Σm=−kk Σn=−kk x(imjn) · G(m,n)
G(m,n)  =  12πσ2 · exp ( −m2 + n22 )
r = 2k+1은 커널의 크기, σ는 블러가 얼마나 강하게 걸리는지를 조절하는 표준편차다.

근데 여기서 한 발 더 나간다. 실험 패러다임(RSVP) 특성상 피험자 시선은 화면 중앙의 빨간 점, 즉 고정점에 계속 머물러 있다.

그래서 실제 인간 시야처럼 중심은 선명하게 남기고 주변부로 갈수록 더 흐리게 만드는 fovea blur를 적용했다. 원본 이미지와 균일 블러 이미지를 픽셀 위치별 가중치로 블렌딩하는 방식이다.

v  =  α(i,j) · x  +  (1−α(i,j)) · xblur
α(i,j)  =  exp ( −λ · d(i,j)L )
d(i,j)는 고정점(fovea)까지의 거리, L은 이미지 안에서 가능한 최대 거리다.

α가 중심에서 1에 가깝고 바깥으로 갈수록 지수적으로 감소하니까, 결과적으로 중심은 원본 그대로, 주변부는 블러 이미지 쪽으로 수렴한다. 그림으로 그리면 이런 느낌이다.

거리에 따른 블렌딩 비중 α(i,j) fixation 중심(고정점)은 α≈1 → 원본 유지, 바깥은 α≈0 → 블러 이미지로 수렴 d(i,j) : 중심으로부터 거리 α α = exp(−λ·d/L) 중심 (원본 100%) 바깥 (블러 이미지 비중 ↑)
Fovea Blur 개념도. 고정점(빨간 점) 주변은 원본을 유지하고, 거리가 멀어질수록 블러 이미지 비중이 커진다

이 자체는 사실 별로 새로운 아이디어는 아니다. 데이터에 왜곡을 주는 건 augmentation에서 흔한 방법이니까.

저자들이 신경 쓴 부분은 "이게 단순 augmentation이 아니라 System GAP을 메우는 장치"라는 걸 실험으로 증명하는 쪽이었다. 이 얘기는 실험 결과 섹션에서 다시 이어간다.

불확실성 정량화로 Random GAP 줄이기

블러 반지름 r을 고정값으로 두면 모든 이미지-뇌파 쌍에 똑같은 블러를 먹이는 셈이다. 근데 Random GAP은 쌍마다 크기가 다르다.

어떤 트라이얼은 피험자가 집중해서 봤고, 어떤 트라이얼은 딴생각하다 찍혔을 수도 있다. 그래서 UBP는 쌍마다 "이 쌍이 얼마나 불확실한지"를 추정해서 r을 동적으로 조절한다.

방법은 이렇다. 미니배치 안에서 이미지 임베딩과 뇌 임베딩의 유사도 행렬 M을 구하고, 대각선(진짜 짝끼리의 유사도) 값들 S를 뽑는다. 흥미로운 관찰은, 이 유사도 점수들이 대략 정규분포를 따른다는 점이다(Fig 3).

Figure 3
Fig 3. (a) 이미지-EEG 유사도 행렬, (b) 대각선 유사도 점수의 분포와 신뢰구간. 빨간 영역이 불확실성 영역

정규분포 N(μ̂, σ̂2)을 추정하고 나면, 유의수준 1−α에 해당하는 신뢰구간을 잡을 수 있다.

이 구간을 벗어나는 쌍은 유사도가 통계적으로 이례적인 쌍, 즉 Random GAP이 크게 낀 아웃라이어로 보고, 구간 안에 얌전히 들어오는 쌍은 정상적인 쌍으로 본다. 이 판정에 따라 블러 반지름을 다르게 준다.

r(s)  =  r0 − c
s가 신뢰구간 하한보다 낮을 때 (유사도가 예상보다 많이 낮음)
r(s)  =  r0 + c
s가 신뢰구간 상한보다 높을 때 (유사도가 예상보다 많이 높음)
r(s)  =  r0
s가 신뢰구간 안에 있을 때 (정상 범위)
유사도 점수 s 1−α 신뢰구간 s < 하한 r(s) = r0 − c 구간 안 r(s) = r0 s > 상한 r(s) = r0 + c
신뢰구간 기반 blur radius 결정 규칙. 구간을 벗어난 두 방향에 대해 서로 다르게 r을 조정한다

baseline 반지름 r0을 잡아두고, 신뢰구간을 벗어난 정도에 따라 ±c만큼 흔들어주는 셈이다. 유사도 행렬 M은 iteration마다 moving average로 업데이트해서 급격한 튐을 줄인다.

이걸 Blur Prior와 합치면 알고리즘 전체가 완성된다. 매 iteration마다 현재 r로 이미지를 블러 처리해서 인코딩하고, loss를 계산하고, 그 유사도를 바탕으로 다음 iteration에 쓸 r을 다시 갱신하는 루프다.

실험 결과

THINGS-EEG(10명, RSVP 패러다임)와 THINGS-MEG(4명) 두 데이터셋에서 200-way zero-shot retrieval로 평가한다. brain encoder는 2개짜리 선형 레이어에 잔차 연결을 붙인 가벼운 구조(EEGProject)를 기본으로 쓴다.

Table 1
Table 1. THINGS-EEG 200-way zero-shot retrieval 결과 (intra-subject / inter-subject)

intra-subject(한 피험자 데이터로 학습하고 평가하는 세팅) 기준으로 이전 SOTA였던 VE-SDN이 top-1 37.2%, top-5 69.9%였는데, UBP는 top-1 50.9%, top-5 79.7%까지 올라간다. 거의 모든 피험자에서 일관되게 앞서는 걸 보면 특정 피험자한테만 잘 맞은 게 아니라 방법 자체의 효과로 보인다.

inter-subject(한 피험자를 빼고 학습한 뒤 그 피험자로 평가하는, 말하자면 처음 보는 사람 데이터에 대한 일반화 테스트)에서도 top-1 11.8%에서 12.4%로 개선폭은 작지만 여전히 앞선다. MEG 데이터셋에서도 비슷한 패턴이 나타난다.

Table 2
Table 2. THINGS-MEG 200-way zero-shot retrieval 결과

블러가 진짜 System GAP을 메우는 게 맞나

여기서 저자들이 짚고 넘어가는 질문이 있다. "블러 처리가 그냥 데이터 증강(augmentation) 효과 아니냐"는 거다.

이걸 반박하려고 여러 변형을 다 비교했다. 기하학이나 색상을 바꾸는 통상적인 augmentation(flip, crop, grayscale, color jitter)과, 이미지 품질 자체를 낮추는 corruption(noise, low-res, uniform blur, fovea blur)을 나눠서 성능을 비교한 거다.

Figure 5
Fig 5. 원본 이미지에 적용한 다양한 augmentation / corruption 예시
Table 3
Table 3. 변환 종류별 zero-shot retrieval 성능 비교

결과가 꽤 선명하다. flip이나 crop, color jitter처럼 기하나 색상만 건드리는 변환은 baseline(vanilla, top-1 42.1%)과 별 차이가 없거나 오히려 떨어진다. 반면 noise, low-res, blur처럼 고주파 디테일을 실제로 지우는 변환들은 전부 성능이 올라간다.

그중에서도 fovea blur가 uniform blur보다 낫고(50.2% vs 49.3%), 여기에 uncertainty 기반 동적 조절(Dynamic)까지 더한 최종 UBP가 50.9%로 가장 높다.

결국 이미지를 아무렇게나 흐리게 한다고 되는 게 아니라 고주파 정보를 지우는 방향의 변환이어야 효과가 있고, 그중에서도 인간 시각계를 모사한 fovea 방식이 가장 잘 맞는다는 얘기다. 단순 augmentation이 아니라 System GAP을 메우는 쪽으로 작동한다는 저자들의 주장을 뒷받침하는 결과인 셈이다.

블러는 어느 정도가 적당한가

blur radius를 0(블러 없음)부터 41까지 바꿔가며 uniform blur로 실험한 결과다.

Figure 6
Fig 6. Blur radius에 따른 top-1 / top-5 정확도 변화

radius가 커질수록 성능이 올라가다가 11 근처에서 정점을 찍고, 그 이후로는 다시 떨어진다. radius 41에서는 오히려 블러를 안 준 것보다 성능이 나쁘다.

너무 흐리게 하면 이미지에 남은 정보 자체가 부족해져서 이번엔 반대 방향의 정보 불일치가 생기는 걸로 해석할 수 있다. 결국 관건은 딱 적당한 만큼만 지우는 거다.

불확실성 정량화가 실제로 아웃라이어를 구분하는가

Random GAP이 큰 샘플에 대한 정답 라벨은 없으니 직접 검증은 어렵다. 대신 저자들은 트라이얼을 평균 내지 않은 raw EEG(SNR이 낮아 노이즈가 많음)를 아웃라이어의 대리 지표로 삼았다.

Figure 7
Fig 7. 평균 처리된 트라이얼과 평균 처리하지 않은(노이즈 많은) 트라이얼의 유사도 분포 비교

평균 처리한 트라이얼(파란색)은 신뢰구간 안쪽에 몰려 있는 반면, 평균을 내지 않은 노이즈 많은 트라이얼(주황색)은 신뢰구간 왼쪽 바깥으로 크게 밀려나 있다. uncertainty quantification이 신호 품질이 나쁜 샘플을 실제로 구별해내고 있다는 정황 증거인 셈이다.

인코더를 바꿔도 통하는가

UBP가 특정 구조에만 맞는 트릭이 아니라는 걸 보이려고, brain encoder 5종(EEGProject, TSconv, EEGnet, Deepnet, Shallownet)과 vision encoder 8종(RN50부터 ViT-bigG/14까지)의 모든 조합, 즉 수천 개의 모델을 학습시켰다.

Figure 8
Fig 8. 인코더 조합별 UBP 적용 시 top-1 정확도 개선폭(%p)

모든 칸이 양수다. 어떤 조합이든 UBP를 얹으면 성능이 오른다는 얘기다. 개선폭이 작은 조합(Deepnet 계열)도 있고 큰 조합(EEGProject + 대형 ViT)도 있지만, 방향성 자체는 architecture에 무관하게 유지된다.

피험자 편차에 강한가

피험자별 EEG 변동성(Fig 2-c에서 본 그 편차)과 top-1 정확도 사이의 상관관계를 봤다. 변동성이 큰 피험자일수록 성능이 잘 안 나온다면, 그 방법은 노이즈에 취약하다는 뜻이 된다.

Table 4
Table 4. 피험자별 EEG 변동성과 top-1 정확도의 Pearson/Spearman 상관계수

NICE-SA(-0.783), VE-SDN(-0.687) 같은 기존 방법들은 변동성과 성능 사이에 꽤 강한 음의 상관관계를 보인다. 변동성이 큰 피험자일수록 성능이 눈에 띄게 떨어진다는 얘기다.

반면 blur를 아예 쓰지 않은 Vanilla(-0.761)와 비교하면 UBP는 -0.481로 상관관계가 확실히 완화된다. 완전히 사라진 건 아니지만, 노이즈가 많은 피험자에서도 상대적으로 덜 흔들린다고 볼 수 있다.

마무리 생각

이 논문 이후 나온 후속 연구(EEG 인코더에 temporal attention을 붙인 STAE 계열)에서도 UBP를 "EEG 신호의 생물학적 특성에서 출발해 문제를 재정의한 방법"으로 언급하며, 여기서 제안한 EEGProject 인코더를 그대로 백본으로 가져다 쓰는 경우가 있었다. 방법 자체의 단순함에 비해 후속 영향력은 꽤 있는 편이다.

한계도 저자들이 명확히 인정한다. blur prior는 인간 시각계의 고주파 손실을 근사한 것일 뿐 완전한 모델은 아니고, 학습 가능한(learnable) 형태로 더 정교하게 만들 여지가 있다. uncertainty quantification도 Random GAP을 정규분포 하나로 뭉뚱그려 근사한 것이라, 지각/인지/노이즈라는 서로 다른 원인을 구분해서 다루지는 못한다.

그래도 접근 자체는 인상적이다. 모델을 더 복잡하게 만드는 대신, 두 모달리티 사이 정보량 격차라는 근본 원인을 짚고 데이터 쪽에서 그 격차를 줄여준 것뿐인데 성능 차이가 크게 났다. 뇌-이미지 정렬뿐 아니라 애초에 정보량이 비대칭인 모달리티 쌍을 다루는 다른 멀티모달 문제에도 적용해볼 만한 아이디어라는 생각이 든다.

#CVPR2025 #뇌디코딩 #EEG #신경디코딩 #대조학습 #BrainComputerInterface #UBP #컴퓨터비전