뇌파로 이미지를 찾는다는 게 어떤 얘기냐면
사람이 눈앞의 이미지를 볼 때 뇌에서는 전기적 신호가 발생한다. EEG(뇌전도)나 MEG(뇌자도)로 그 신호를 기록하고, 역으로 "지금 이 뇌파를 일으킨 이미지가 뭔지" 맞추는 게 visual brain decoding이다. 뇌파로 이미지 검색을 하는 셈인데, BCI(뇌-컴퓨터 인터페이스) 기술의 핵심 과제 중 하나다.
이 분야에서 오랫동안 써온 게 fMRI인데, 공간 해상도가 높은 대신 장비가 크고 시간 해상도가 낮아서 실생활 적용이 어렵다. EEG와 MEG는 밀리초 단위로 뇌 반응을 잡아내고 장비도 훨씬 작다. HyFI가 EEG/MEG를 택한 배경이다.
최근 연구들은 대부분 dual-pathway 방식을 써왔다. 뇌 신호에서 두 종류의 시각 정보를 따로 뽑는 거다. CLIP 같은 vision-language 모델로 잡는 semantic feature(객체 카테고리, 의미론적 정보)와, VAE로 잡는 perceptual feature(색상, 윤곽선, 방향 같은 저수준 정보). 두 경로를 병렬로 두고 각각 뇌 신호와 정렬하는 방식이다.
Figure 1. (a) 인간 시각 시스템과 정보 손실 (b) 기존 방식: semantic/perceptual 분리 정렬 (c) HyFI: 쌍곡선 공간에서의 통합 정렬
그런데 이 방식이 두 가지 문제를 안고 있다.
기존 방식이 놓친 두 가지
첫 번째, 모달리티 간극(modality gap). 이미지 임베딩에는 풍부한 시각 정보가 담겨 있는 반면 EEG 신호는 정보량이 훨씬 적다. 인간의 주의 용량이 제한적이고, 뇌 신호의 SNR이 낮고, 시공간 해상도도 한계가 있으니 당연한 얘기다. 유클리드 공간에서 contrastive learning을 하면 이 정보 불균형이 그대로 남는다.
두 번째, 특징 얽힘(feature entanglement). 뇌가 실제로는 semantic과 perceptual 정보를 분리해서 처리하지 않는다. 신경과학 연구들을 보면 이 두 종류의 정보가 뇌 활동 안에서 복잡하게 뒤엉켜 있다. 그런데 기존 방식들은 이 둘을 완전히 독립적인 경로로 분리해서 각각 정렬했다. 뇌의 실제 작동 방식과 맞지 않는 가정이다.
HyFI는 이 두 문제를 쌍곡선 공간(hyperbolic space) 하나로 동시에 해결한다는 아이디어다.
왜 쌍곡선 공간인가
유클리드 공간에서는 보간점이 두 점 사이 직선 위에 있지만, 쌍곡선 공간에서는 측지선이 원점 방향으로 휘어 보간점이 원점 근처로 수축된다. 이 수축이 자동 정보 압축으로 이어진다.
쌍곡선 공간에서 두 점을 잇는 최단 경로(geodesic, 측지선)는 원점 방향으로 휘어진다. 이 성질이 brain decoding에 두 가지로 맞아 떨어진다.
정보 압축: 쌍곡선 공간에서 원점 근처는 표현 용량이 낮다. Semantic feature와 perceptual feature 두 점을 측지선 위에서 보간하면, 보간된 점이 원점 쪽으로 당겨지면서 자연스럽게 정보가 압축된다. 뇌 신호의 제한된 정보량과 딱 들어맞는다.
특징 융합: 두 점을 하나의 측지선 경로로 잇기 때문에, semantic feature와 perceptual feature가 연속적인 스펙트럼 위에서 합쳐진다. 분리된 두 경로가 아니라 하나의 궤적 위에서.
수학적 기반: Lorentz 모델
쌍곡선 공간을 구현하는 모델은 여러 가지인데, HyFI는 Lorentz(hyperboloid) 모델을 썼다. 멀티모달 학습에서 경험적으로 성능이 좋다고 알려진 모델이다.
Lorentz 모델 정의
n차원 Lorentz 모델은 (n+1)차원 민코프스키 공간에서 정의된 쌍엽 쌍곡면의 위쪽 시트다. 점 \(\mathbf{p} = (p_0, \tilde{\mathbf{p}})\)에서 \(p_0\)는 시간 성분, \(\tilde{\mathbf{p}} \in \mathbb{R}^n\)은 공간 성분이고 다음을 만족한다:
로렌츠 내적은 일반 유클리드 내적과 달리, 시간 성분끼리는 빼준다:
두 점 사이의 측지선 거리는:
지수 맵과 로그 맵
뉴럴넷 출력은 flat한 벡터인데, 쌍곡면은 휘어져 있어서 그 위에 바로 올릴 수 없다. 이 사이를 연결하는 게 지수 맵(exponential map)과 로그 맵(logarithmic map)이다.
점 \(\mathbf{p}\)에서의 접공간 \(T_\mathbf{p}\mathbb{L}^n\)은 로렌츠 내적으로 \(\mathbf{p}\)와 수직인 벡터들의 집합이다. 접공간 위의 벡터 \(\mathbf{v}\)를 쌍곡면 위로 올리는 지수 맵:
반대로 쌍곡면 위의 점을 접공간으로 내리는 로그 맵:
실제 구현에서는 시간 원점 \(O = (\sqrt{1/\kappa}, 0, \ldots, 0)^\top\)에서 이 맵을 적용한다. 인코더 출력 \(\mathbf{v}_{\text{enc}}\)에 대해 \(\mathbf{v} = [0, \mathbf{v}_{\text{enc}}]\)로 맞추면 접공간 조건을 자동으로 만족해서 바로 지수 맵을 쓸 수 있다.
HyFI 전체 프레임워크
Figure 2. (a) HyFI 전체 아키텍처 (b) 쌍곡선 임베딩 공간에서의 보간 구조
HyFI 전체 파이프라인. Semantic/perceptual 이미지를 CLIP으로 인코딩한 뒤 쌍곡선 공간에서 측지선 보간으로 ẑv를 만들고, 뇌파 임베딩 zb와 contrastive learning으로 정렬한다.
공유 공간은 n차원 Lorentz 공간 \(\mathbb{L}^n\)으로 정의된다. 시각 임베딩과 뇌파 임베딩을 각각 시간 원점 \(O\)에서의 지수 맵으로 올린다:
\(\alpha_v\)와 \(\alpha_b\)는 임베딩 norm을 줄여주는 학습 가능한 스칼라로, 임베딩이 원점 근처에 모이도록 유도한다. CLIP을 freeze한 건 잘 된 설계다. 뇌파 데이터는 절대적으로 적어서 CLIP까지 같이 학습시키면 과적합이 일어나 pretrained 표현 능력이 무너진다. frozen backbone에서 풍부한 특징을 뽑고, 선형 레이어만 학습해서 쌍곡선 공간에 맞게 번역하는 방식이다.
핵심: Hyperbolic Feature Interpolation
이미지 augmentation으로 두 특징 만들기
Figure 3. Fovea blur(semantic)와 Gaussian blur(perceptual)로 생성한 두 버전.
같은 이미지에서 두 버전을 만든다.
Semantic image: Fovea blur 적용. 중심부는 선명하고 주변부로 갈수록 흐려지는 방식으로, 인간 눈의 중심와(fovea) 시각을 시뮬레이션한 거다. CLIP이 세부 텍스처보다 객체 정체성, 카테고리 같은 의미론적 정보에 더 집중한 임베딩을 만들게 유도한다. 블렌딩 가중치 \(\delta(i,j)\)를 중심에서의 거리로 정의한다:
Perceptual image: Gaussian blur 적용. 가우시안 커널 \(G(m,n)\)으로 고주파 성분을 제거하고 전반적인 색상과 구조만 남긴다:
Supplementary에서 여러 augmentation 조합을 비교했는데, 이 조합이 가장 성능이 좋았다. 두 이미지는 각각 CLIP에 통과해서 별도의 선형 레이어 \(W_s\), \(W_p\)를 거쳐 쌍곡선 공간으로 올려진다:
측지선 보간
두 특징이 쌍곡면 위에 올려지면, 측지선 위에서 보간한다. \(z^p_v\)를 \(z^s_v\)에서의 접공간으로 로그 맵으로 내린 뒤, \(t\)배 스케일링하고 다시 지수 맵으로 올린다:
보간 계수 \(t \in [0, 1]\)은 이미지마다 동적으로 계산된다. \(t=0\)이면 semantic feature, \(t=1\)이면 perceptual feature쪽이다:
Supplementary 실험 결과, EEG feature보다 semantic image feature로 \(t\)를 계산하는 게 더 좋았다. 어떤 이미지가 semantic 정보를 더 중시해야 하는지는 이미지 자체가 알고 있으니 맞는 설계다. 실제로 학습된 \(t\) 분포를 보면 대부분 0.5 이하로 몰려 있는데, 뇌가 저수준 지각 정보보다 의미론적 정보에 더 강하게 반응한다는 기존 신경과학 연구와 일치한다.
왜 쌍곡선에서 보간하는 게 압축을 만드나
이게 이 논문의 핵심 수학적 결과다. Lorentz model에서 측지선을 닫힌 형태로 쓰면 다음과 같다:
유클리드 선형 보간 \((1-t)\mathbf{p} + t\mathbf{q}\)과 비교해보면, 쌍곡선 계수 \(\frac{\sinh((1-t)\beta)}{\sinh(\beta)}\)와 \(\frac{\sinh(t\beta)}{\sinh(\beta)}\)가 유클리드 계수 \((1-t)\)와 \(t\)보다 항상 작다. \(f(x) = \sinh(x)/x\)가 단조증가 함수라는 성질에서 나오는 결과인데, 이 때문에 두 계수의 합이 \(a + b < 1\)이 된다. 유클리드에서는 항상 \((1-t)+t=1\)이니 이게 얼마나 다른 건지 알 수 있다.
이 계수 불등식이 기하적으로는 보간된 점의 공간 성분 norm이 두 원래 점보다 항상 작다는 뜻이다. Lorentz 모델의 구조 방정식을 보면 그 이유가 명확해진다:
공간 성분 norm \(\|\tilde{\mathbf{p}}\|\)이 작아지면 시간 성분 \(p_0\)도 작아지고, 결국 원점 \(O\)에 더 가까워진다. 원점 근처는 표현 용량이 낮은 곳이다. 정리하면, 쌍곡선 측지선 보간을 하면 보간된 점이 자동으로 원점 쪽으로 수축되고, 이 수축이 정보 압축으로 이어진다. Explicit하게 bottleneck을 설계할 필요 없이 쌍곡선 기하학에서 공짜로 나오는 성질이다.
Figure 5. CLIP 공간과 HyFI 쌍곡선 공간에서의 임베딩 거리 분포.
그림을 보면 이게 실제로 일어나고 있다. CLIP 공간에서는 보간된 임베딩(초록)이 semantic(빨강)과 perceptual(주황) 사이 어딘가에 있는 반면, HyFI 공간에서는 보간된 임베딩이 원점 쪽으로 명확하게 수축된다. EEG 임베딩(파랑)은 반대로 원점에서 멀리 분포하는데, EEG 신호의 높은 변동성이 반영된 거다.
학습: Hyperbolic Contrastive Loss
EEG-image 쌍에 대해 쌍곡선 공간에서 contrastive learning을 한다. 로렌츠 거리를 쓰는 대조 손실로, 분자는 매칭 쌍의 거리가 작을수록 크고 분모는 비매칭 쌍까지 고려한다:
최종 손실은 image→brain, brain→image 양방향을 합친다:
여기서 정렬 대상이 원본 이미지 임베딩 \(z_v\)가 아니라 보간된 임베딩 \(\hat{z}_v\)라는 게 포인트다. 압축되고 융합된 표현을 타겟으로 삼으니까 뇌 신호 쪽에서 맞추기가 훨씬 수월해진다.
구현 디테일: AdamW(lr=3×10⁻⁴, weight decay=1×10⁻⁴), batch size 1024, 50 epoch. 곡률 κ는 1로 초기화 후 학습 중 최적화. GTX 1080 Ti(12GB) 하나로 돌렸다. 기본 vision encoder는 CLIP-RN50, 기본 brain encoder는 EEGProject다.
실험 결과
THINGS-EEG / THINGS-MEG 벤치마크
평가는 200-way zero-shot retrieval이다. 테스트 이미지 200개 중에서 뇌파 신호에 대응하는 이미지를 찾는 거다. 학습 때 본 적 없는 개념에 대한 일반화 능력을 테스트한다.
Table 1. THINGS-EEG 200-way zero-shot retrieval 결과 (intra/inter-subject).
Table 2. THINGS-MEG 200-way zero-shot retrieval 결과.
| 데이터셋 | 세팅 | 이전 SOTA (UBP) | HyFI | 향상 |
|---|---|---|---|---|
| THINGS-EEG | Intra Top-1 | 50.9% | 68.2% | +17.3%p |
| THINGS-EEG | Intra Top-5 | 79.7% | 91.9% | +12.2%p |
| THINGS-MEG | Intra Top-1 | 26.7% | 35.8% | +9.1%p |
| THINGS-MEG | Intra Top-5 | 55.2% | 64.6% | +9.4%p |
intra-subject(한 피험자 안에서 학습/테스트)에서 두 데이터셋 모두 큰 폭으로 SOTA를 갱신했다. inter-subject(leave-one-out) 세팅에서는 성능이 많이 낮아지는데, 피험자 간 뇌 신호 분포 차이가 크다는 게 이 분야 전체적인 과제다.
Figure 4. HyFI vs UBP 검색 결과 정성적 비교.
Ablation: 뭐가 진짜 기여했나
Table 3. Interpolation과 Hyperbolic space 각각의 기여도 ablation.
| Interpolation | Hyperbolic | THINGS-EEG Top-1 | THINGS-MEG Top-1 |
|---|---|---|---|
| – | – | 49.4% | 23.1% |
| – | ✓ | 54.3% (+4.9) | 28.8% (+5.7) |
| ✓ (CLIP) | – | 59.7% (+10.3) | 25.2% (+2.1) |
| ✓ | ✓ (HyFI) | 68.2% (+18.8) | 35.8% (+12.7) |
두 요소가 상호보완적으로 작용한다. CLIP 공간에서만 보간해도 성능이 오르는데, 저수준 시각 정보를 통합하는 것 자체가 효과적이라는 뜻이다. 근데 쌍곡선 공간에서 보간할 때 결과가 훨씬 좋다. 압축 효과가 실제로 중요한 역할을 한다는 직접적인 증거다.
Vision / Brain Encoder 변형 실험
Table 4. 다양한 vision encoder에서 HyFI 성능 비교.
Table 5. 다양한 brain encoder에서 HyFI 성능 비교.
CNN 계열(RN50, RN101)이 ViT 계열보다 EEG와 정렬이 더 잘 된다. 그리고 큰 모델이 꼭 좋은 게 아니다. 오히려 가벼운 아키텍처가 더 좋은 경향이 있는데, EEG 신호의 compact한 특성과 관련 있는 것 같다. Supplementary에서 ViT 계열에서는 augmentation의 perceptual 편향 효과가 덜 뚜렷했다는 점도 이와 연관될 거다.
뇌 인코더 실험에서는 ShallowNet, EEGNet, TSConv, EEGProject 전부에서 HyFI가 일관되게 성능을 올렸다. 특정 아키텍처에 종속되지 않고 plug-in처럼 적용 가능하다는 점이 실용적으로 중요하다.
보간 계수 t 분석
Figure 6. 보간 계수 t 분포와 대표 이미지.
t 분포를 보면 0.42~0.46 사이에 몰려 있고 0.5보다 아래에 있다. 모델이 perceptual보다 semantic 쪽에 더 무게를 두고 있다는 뜻이다. t가 낮은 이미지는 바나나, 치타처럼 해당 카테고리의 전형적인 예시 이미지들이고, t가 높은 이미지는 두드러지는 색상이나 방향 같은 저수준 속성을 가진 이미지들이다. 모델이 이미지 내용에 따라 합리적인 판단을 학습했다고 볼 수 있다.
마무리
HyFI는 문제를 잘 짚었다. brain decoding에서 "뇌 신호는 정보가 적고, semantic/perceptual feature가 얽혀 있다"는 두 핵심 특성을 명확하게 정의하고, 쌍곡선 측지선 보간이라는 단일 메커니즘으로 둘을 동시에 다루는 접근이다. 특히 압축이 explicit한 설계 없이 기하학에서 저절로 나온다는 게 수학적으로도 깔끔하다.
한계도 있다. inter-subject 세팅에서 성능이 아직 낮고, 현재 CLIP-RN50 조합에서 효과가 가장 두드러진다. ViT 계열에서는 augmentation의 perceptual 편향 효과가 덜 뚜렷하다는 점이 후속 연구의 과제로 남는다. 쌍곡선 표현 학습을 EEG brain decoding에 적용하는 건 이 논문이 첫 시도인 만큼, 어떻게 확장될지 지켜볼 만한 작업이다.
'AI Paper > Multimodal & Representation' 카테고리의 다른 글
| [논문 리뷰] UBP - Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior (0) | 2026.07.01 |
|---|