본문으로 이동

도서상세보기

인공지능

허깅페이스로 배우는 멀티모달 모델 - 이미지 이해부터 생성, 파인튜닝까지

이정인, 정우준 (지은이) / 아이생각(디지털북스)2026-03-10
  • 정가22,000
  • 기본정보240쪽
    188*257mm
  • ISBN8960885045
  • ISBN139788960885042
  • 수량
  • 0.0

    (0개의 100자평)
  • 리뷰 아이콘

    Review

    (0개의 마이리뷰)
미리보기 아이콘 미리보기

머리말

Part 01. 허깅페이스 살펴보기
Chapter 01. 왜 허깅페이스(Hugging Face)인가?
Chapter 02. 허깅페이스 가입하기
Chapter 03. 멀티모달 모델을 위한 허깅페이스 라이브러리

PART 02. 멀티모달 모델 이해하기
Chapter 01. 멀티모달 모델에 대해서 알아보기
Chapter 02. 이미지와 텍스트를 이해하는 CLIP

PART 03. 멀티모달 모델을 활용한 이미지 이해
Chapter 00. 들어가기에 앞서
Chapter 01. 멀티모달 모델 입문
Chapter 02. 최신 멀티모달 모델 실전 활용하기
Chapter 03. 특정 작업을 잘하도록 멀티모달 모델 파인튜닝하기

PART 04. 멀티모달 모델을 활용한 이미지 생성
Chapter 00. 들어가기에 앞서
Chapter 01. Text-to-Image Generation
Chapter 02. 이미지 생성 모델을 더 효과적으로 제어하는 방법
Chapter 03. 나만의 멀티모달 이미지 생성 모델을 학습하는 방법
Chapter 04. 더 효율적으로 이미지 생성 모델을 사용하는 방법

PART 05. 멀티모달 모델 더 알아보기
Chapter 01. 멀티모달 이해 더 알아보기
Chapter 02. 이미지 생성 더 알아보기

세계 최대이자 대표 오픈소스 AI 플랫폼
허깅페이스로 시작하는 멀티모달 모델의 모든 것


전 세계적으로 가장 대표적인 오픈소스 AI 플랫폼인 허깅페이스(Hugging Face)는 전 세계의 수많은 연구자와 기업들이 허깅페이스를 통해 자신의 모델과 데이터셋을 공개하고 공유하고 있습니다. 허깅페이스는 단순히 모델을 모아둔 저장소 역할만 하지 않습니다. Transformers와 같은 라이브러리를 통해 이 모델들을 쉽게 다룰 수 있는 방법을 제공하며, 개발자들이 복잡한 기술을 간단한 코드 몇 줄로 활용할 수 있게 해줍니다. 이렇듯 허깅페이스는 AI 기술을 효과적으로 활용하는 것은 물론 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 동시에 처리하는 멀티모달(Multimodal) AI 분야에서도 필수적인 도구로 자리 잡았습니다.
《허깅페이스로 배우는 멀티모달 모델》은 허깅페이스(Hugging Face) 생태계를 기반으로, 텍스트와 이미지를 동시에 다루는 멀티모달(Multimodal) 모델의 기초부터 실무 활용까지 이론을 바탕으로 실습을 통해 익힐 수 있도록 구성하였습니다. 이론 설명을 넘어 멀티모달 모델의 핵심인 CLIP 인코더의 원리와 비전 언어 모델(VLM)의 파인튜닝, 그리고 ControlNet을 활용한 정교한 이미지 생성 기법을 단계별 실습과 함께 다룹니다. 특히 급변하는 AI 트렌드에 발맞춰 비디오 LLM, 옴니 모델, 로봇 멀티모달 등 차세대 기술의 확장성까지 조망함으로써 AI 엔지니어와 개발자들이 실질적인 구현 능력을 갖출 수 있도록 도와줄 것입니다.