겨울방학 때 현장실습을 지원하여 인공지능 데이터셋을 다루는 기업에 합격을 하게 되어 겨울방학 기간 동안 다니게 되었다.
먼저 실습기간 동안 해야할 업무와 기업의 교육 목표를 참고한 후 출근을 하였다.


직무: 인공지능 딥러닝 모델 및 데이터 셋 검증
교육 목표 :인공지능 딥러닝 모델을 학습시키는 과정을 이해하고 직접 품질 검증을 실습 주 실습 내용 본 현장실습에서는 인공지능 딥러닝 모델의 학습 구조를 이해하고 실제 산업 현장에서 활용되는 데이터를 기반으로 데이터 셋 품질 검증 및 모델 성능 평가 과정을 실습합니다. 학생들은 AI 모델의 학습 데이터 구축 절차를 직접 경험하며 데이터 신뢰성 확보와 AI 성능 향상에 필요한 실무 역량을 습득하게 됩니다.

3학년 1학기에 데이터 사이언스 과목을 수강하였기에 머신러닝과 딥러닝에 대해 어느정도 개념과 코드들이 익숙하였다.
실습하기에 앞서 어느정도 기본 개념은 있어야 하기에 이사님이 텐서플로우, 파이토치에 대해서 공부하고 그것에 대한 결과물을 만들어 오라는 과제를 내주셨다. 제약조건도 CNN과 YOLO 같은 옛날 모델은 지양하라는 점을 추가 하였다. 그 결과물에 따라서 각자가 맡을 테스크가 달라질 것이라는 말씀을 해주셨다.
그래서 1주일 동안 계속 공부만 하였다. 유튜브, LLM, 논문 영상, github page 등을 찾아 보면서 공부했던 내용들을 적어보려 한다.

 

2026.01.11 - [현장실습 일기] - 회고 1주차 - PyTorch로 로지스틱 회귀 구현

 

회고 1주차 - PyTorch로 로지스틱 회귀 구현

PyTorch로 로지스틱 회귀(Logistic Regression) 직접 구현하기1. 데이터셋 다운로드 및 NumPy로 데이터 로드import kagglehubimport osimport numpy as npfrom kagglehub import KaggleDatasetAdapterpath = kagglehub.dataset_download("uciml/p

younglook.tistory.com

2026.01.11 - [현장실습 일기] - 회고 1주차 – CLIP 모델 첫 구현과 Zero-shot 분류 실험

 

회고 1주차 – CLIP 모델 첫 구현과 Zero-shot 분류 실험

1. CLIP 모델 개요 – 내가 구현한 것은 무엇인가?이번 글에서는 OpenAI의 CLIP(Contrastive Language–Image Pretraining) 모델을 이용해이미지를 입력하면, 미리 정의한 텍스트 라벨 중 어떤 개념과 가장 유사

younglook.tistory.com

2026.01.11 - [현장실습 일기] - 회고 1주차 – Oxford-IIIT Pet Dataset으로 CLIP 적용하기

 

회고 1주차 – Oxford-IIIT Pet Dataset으로 CLIP 적용하기

CLIP 모델의 동작 방식을 이해하기 위해 이미지와 텍스트를 직접 입력하는 방식으로 Zero-shot 분류를 실험해보았다.이번 글에서는 한 단계 더 나아가 실제 데이터셋(Oxford-IIIT Pet Dataset)을 사용해 CLI

younglook.tistory.com

 

단순히 라이브러리를 사용하는 수준을 넘어, 로지스틱 회귀가 실제로 어떻게 동작하는지를 코드 단위로 이해할 수 있었다.
특히 nn.Linear 하나만으로도 로지스틱 회귀 모델이 구성된다는 점이 인상 깊었고 수식으로만 보던 개념이 실제 코드로 구현되면서 이해가 훨씬 명확해졌다. 처음에는 loss 값이 매우 크고 정확도도 낮아 제대로 학습이 되는 게 맞는지 의문이 들었지만 epoch이 증가할수록 loss가 안정적으로 감소하고 accuracy가 점진적으로 올라가는 과정을 직접 확인하면서 모델이 데이터를 통해 학습해 나간다는 감각을 확실히 느낄 수 있었다.

이후 CLIP 모델을 구현하면서는 기존의 지도학습 방식과는 전혀 다른 접근을 경험할 수 있었다. CLIP은 명시적인 학습 과정 없이도 이미지와 텍스트를 동일한 임베딩 공간에 매핑하여 Zero-shot 분류가 가능하다는 점이 매우 인상적이었다. 특히 이미지 자체를 분류하는 것이 아니라 이미지와 텍스트 간의 의미적 유사도를 계산해 결과를 도출한다는 구조를 코드로 직접 확인하면서 모델의 관점이 어떻게 달라지는지를 이해할 수 있었다.

또한 Oxford-IIIT Pet Dataset을 활용한 실험을 통해, 단순한 단일 프롬프트보다 여러 텍스트 템플릿을 활용한 Prompt(Template) Ensemble 방식이 성능과 예측 신뢰도를 모두 개선한다는 점을 정량적으로 확인할 수 있었다. 이는 모델 구조를 바꾸지 않더라도 입력 텍스트 설계만으로 결과가 크게 달라질 수 있다는 것을 보여주었고 딥러닝 모델에서 입력 설계가 얼마나 중요한 요소인지를 다시 한 번 느끼게 해주었다.

+ Recent posts