분류 전체보기 22

[논문 리뷰] UBP - Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior

어떤 논문이냐EEG로 사람이 지금 뭘 보고 있는지 맞추는 걸 brain-to-image retrieval이라고 부른다. 방식은 대체로 비슷하다. CLIP 같은 사전학습 비전 모델로 이미지를 임베딩하고, EEG 신호를 인코더에 태워서 같은 임베딩 공간으로 밀어넣은 다음, 대조 학습(contrastive learning)으로 이미지-뇌파 쌍을 붙여준다. 문제는 이게 생각보다 잘 안 된다는 거였다.이 논문(UBP, CVPR 2025)은 왜 잘 안 되는지를 두 가지 갭으로 설명한다. 하나는 System GAP이다. 사람 눈은 카메라가 아니라서, 중심와(fovea)만 고해상도로 보고 주변부는 뭉개서 처리한다. 그러니 EEG에는 애초에 원본 이미지의 고주파 디테일이 담길 수가 없다.모델한테 "이 흐릿한 뇌 신호로 ..

[논문 리뷰] HyFI - Hyperbolic Feature Interpolation for Brain-Vision Alignment

뇌파로 이미지를 찾는다는 게 어떤 얘기냐면사람이 눈앞의 이미지를 볼 때 뇌에서는 전기적 신호가 발생한다. EEG(뇌전도)나 MEG(뇌자도)로 그 신호를 기록하고, 역으로 "지금 이 뇌파를 일으킨 이미지가 뭔지" 맞추는 게 visual brain decoding이다. 뇌파로 이미지 검색을 하는 셈인데, BCI(뇌-컴퓨터 인터페이스) 기술의 핵심 과제 중 하나다.이 분야에서 오랫동안 써온 게 fMRI인데, 공간 해상도가 높은 대신 장비가 크고 시간 해상도가 낮아서 실생활 적용이 어렵다. EEG와 MEG는 밀리초 단위로 뇌 반응을 잡아내고 장비도 훨씬 작다. HyFI가 EEG/MEG를 택한 배경이다.최근 연구들은 대부분 dual-pathway 방식을 써왔다. 뇌 신호에서 두 종류의 시각 정보를 따로 뽑는 거다..

[논문 리뷰] Attention Is All You Need

RNN 없이 시퀀스를 처리할 수 있을까2017년까지만 해도 번역이든 요약이든 시퀀스를 다루는 모델은 거의 다 RNN 계열이었다. LSTM이든 GRU든 결국 t번째 단어를 처리하려면 t-1번째까지의 계산이 끝나야 한다는 게 핵심 전제였고, 이 순차성 때문에 병렬화가 안 됐다. 문장이 길어지면 메모리 제약 때문에 배치 크기도 줄여야 했고, 학습 속도는 더 느려졌다.Attention은 이미 RNN과 결합된 형태로 쓰이고 있었다. Bahdanau attention처럼 인코더-디코더 사이에 attention을 끼워 넣어서 멀리 떨어진 단어 사이의 의존성도 잘 잡아내는 식이었다. 근데 이 논문 저자들은 한 발 더 나갔다. "그럼 RNN은 왜 필요한 거지? Attention만으로 인코더와 디코더를 다 만들면 안 되나..

[논문 리뷰] CLIP - Contrastive Language-Image Pre-training

GPT가 NLP를 바꾼 것처럼, 이미지도 그렇게 되면 어떨까2021년 초 OpenAI가 발표한 CLIP(Contrastive Language-Image Pre-training)은 "이미지를 텍스트로 감독한다"는 아이디어 하나로 컴퓨터 비전의 패러다임을 뒤흔든 논문이다. 훈련할 때 단 한 번도 본 적 없는 데이터셋에서, 클래스 이름 하나 보여줬더니 ResNet-50 수준의 정확도가 나왔다. 별도의 파인튜닝도 없이.배경부터 짚어보자. GPT 계열이 NLP에서 성공한 방식은 단순하다. 인터넷에 쌓인 텍스트를 그냥 다 먹인다. 레이블 필요 없고, 작업에 맞게 데이터를 따로 구축할 필요도 없다. 반면 당시 컴퓨터 비전은 여전히 ImageNet 같은 사람이 일일이 붙인 레이블에 의존하고 있었다. 기존 비전 모델은 ..

[논문 리뷰] GAN - Generative Adversarial Nets

위조지폐범과 경찰 - 아이디어의 탄생2014년 Ian Goodfellow는 몬트리올의 한 술집에서 동료들과 이야기를 나누다가 아이디어 하나를 떠올렸다. 그날 밤 집에 돌아가 코드를 짰더니 첫 프로토타입이 바로 작동했다고 한다. 그렇게 탄생한 논문이 Generative Adversarial Nets다. 나중에 Yann LeCun이 "지난 10~20년 머신러닝에서 나온 아이디어 중 최고"라고 평했을 만큼, 이 논문이 열어젖힌 문은 생각보다 훨씬 컸다.당시 딥러닝의 눈부신 성과는 거의 전부 판별 모델(discriminative model) 쪽에 집중돼 있었다. 이미지를 받아서 레이블을 맞히는 것 - backpropagation과 dropout, 그리고 ReLU 같은 선형 활성화 함수 덕분에 이쪽은 착착 잘 됐..

cs231n Lecture 11 - Detection and Segmentation

Stanford cs231n: Deep Learning for Computer Vision 강의 정리 시리즈챕터 11 - Detection and Segmentation강의 링크: YouTube#cs231n #딥러닝 #컴퓨터비전 #ObjectDetection #Segmentation #RCNN #MaskRCNN #YOLO목차CV Task 종류Semantic SegmentationClassification + LocalizationObject Detection: R-CNN 계열Object Detection: Single-Stage 방법Instance Segmentation: Mask R-CNN• • •1. CV Task 종류지금까지 강의에서는 주로 Image Classification만 다뤘다. 이..

cs231n Lecture 10 - Recurrent Neural Networks (RNN)

Stanford cs231n: Deep Learning for Computer Vision 강의 정리 시리즈챕터 10 - Recurrent Neural Networks강의 링크: YouTube#cs231n #딥러닝 #RNN #LSTM #시퀀스모델링 #순환신경망목차왜 RNN이 필요한가Vanilla RNN의 작동 원리Character-level Language ModelBackpropagation Through TimeImage Captioning: CNN과 RNN의 만남Vanishing / Exploding Gradient 문제LSTM: 게이트로 기억을 제어하다GRU와 Multilayer RNN• • •1. 왜 RNN이 필요한가지금까지 다룬 Vanilla NN이나 CNN은 구조 자체가 고정 크기 입..

cs231n Lecture 9 - CNN Architectures

Stanford cs231n: Deep Learning for Computer Vision 강의 정리 시리즈챕터 9 - CNN Architectures강의 링크: YouTube#cs231n #딥러닝 #CNN #컴퓨터비전 #AlexNet #VGGNet #GoogLeNet #ResNet목차ILSVRC라는 무대LeNet-5: CNN의 원형AlexNet: 딥러닝의 빅뱅ZFNet: AlexNet을 해부하다VGGNet: 깊이만이 답이다GoogLeNet: 효율적으로 깊게ResNet: 깊이의 한계를 허물다아키텍처 비교• • •1. ILSVRC라는 무대CNN 아키텍처의 역사를 이야기할 때 빠질 수 없는 게 바로 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)..

cs231n Lecture 7 - Training Neural Networks II

Stanford cs231n: Deep Learning for Computer Vision 강의 정리 시리즈 챕터 7 - Training Neural Networks, Part II 강의 링크: YouTube #cs231n #딥러닝 #최적화 #Optimizer #SGD #Adam #Regularization #Dropout #TransferLearning 목차 SGD의 한계 Fancier Optimization: SGD를 넘어서 Learning Rate Schedule Regularization Model Ensembles Transfer Learning • • •1. SGD의 한계6강에서 SGD를 최적화의 기본으로 다뤘는데, 7강은 거기..

cs231n Lecture 6 - Training Neural Networks I

강의: Stanford CS231n - Deep Learning for Computer Vision 챕터: Lecture 6 - Training Neural Networks I 영상: YouTube 바로가기 #cs231n #딥러닝 #활성화함수 #가중치초기화 #배치정규화 #BatchNormalization #ReLU #Xavier초기화 목차 활성화 함수 (Activation Functions) 데이터 전처리 (Data Preprocessing) 가중치 초기화 (Weight Initialization) 배치 정규화 (Batch Normalization) 학습 과정 모니터링 (Babys..