파비오 로리아

알고리즘을 넘어서: 인공 지능 모델을 학습하고 개선하는 방법

2025년 4월 7일
소셜 미디어에 공유

인공지능 모델을 훈련하는 방법

인공 지능 모델 학습은 현대 기술 개발에서 가장 복잡한 과제 중 하나입니다. 모델을 효과적으로 학습시키려면 단순한 알고리즘 문제를 넘어 데이터 과학, 도메인 지식, 소프트웨어 엔지니어링을 통합하는 체계적이고 다학제적인 접근 방식이 필요합니다. 제임스 루크가'알고리즘을 넘어서: 비즈니스를 위한 AI 제공'이라는 저서에서 지적했듯이, AI 구현의 성공은 알고리즘 자체보다는 데이터 관리와 시스템 설계에 훨씬 더 크게 좌우됩니다. 딥서치-R1 모델과 같은 혁신으로 비용과 접근성이 재정의되면서 환경이 빠르게 변화하고 있습니다.

기초: 데이터 수집 및 관리

양보다는 질

흔히 생각하는 것과는 달리 데이터의 양이 항상 성공의 결정적인 요소는 아닙니다. 데이터의 품질과 대표성이 훨씬 더 중요합니다. 이러한 맥락에서 다양한 소스를 통합하는 것이 중요합니다:

  • 독점 데이터: 기존 구현을 통해 윤리적으로 수집되고 익명화된 데이터
  • 공인 데이터: 엄격한 품질 기준을 충족하는 신뢰할 수 있는 공급업체에서 제공
  • 오픈 소스 데이터 세트: 다양성과 정확성을 보장하기 위해 세심하게 검증된 데이터 세트
  • 합성 데이터: 공백을 메우고 개인정보 보호 문제를 해결하기 위해 인위적으로 생성된 데이터

이러한 통합을 통해 윤리 및 개인정보 보호 표준을 유지하면서 실제 시나리오를 캡처하는 포괄적인 교육 기반을 구축할 수 있습니다.

데이터 준비의 과제

'데이터 랭글링' 프로세스는 인공 지능 프로젝트에 필요한 노력의 최대 80%를 차지합니다. 이 단계에는 다음이 포함됩니다:

  • 데이터 정리: 불일치, 중복 및 이상값 제거
  • 데이터 변환: 처리에 적합한 형식으로 변환
  • 데이터 통합: 호환되지 않는 스키마와 형식을 자주 사용하는 다양한 소스의 융합
  • 누락된 데이터 처리: 통계적 대입 또는 프록시 데이터 사용과 같은 전략

American Express의 CTO인 힐러리 패커는 다음과 같이 말합니다 . '솔직히 말해서 우리에게 아하! 순간은 데이터였습니다. 세계 최고의 모델을 선택할 수 있지만... 핵심은 데이터입니다. 검증과 정확성은 현재 제너레이티브 AI의 성배입니다."

모델 아키텍처: 올바른 크기 조정

모델 아키텍처의 선택은 개인적인 성향이나 선호도보다는 해결해야 할 문제의 구체적인 성격에 따라 결정해야 합니다. 문제 유형에 따라 다른 접근 방식이 필요합니다:

  • 심층적인 언어적 이해가 필요한 작업을 위한 트랜스포머 기반 언어 모델
  • 이미지 및 패턴 인식을 위한 컨볼루션 신경망
  • 엔티티 간의 복잡한 관계를 분석하기 위한 그래픽 신경망
  • 최적화 및 의사 결정 문제를 위한 강화 학습
  • 복잡한 사용 사례를 위해 여러 접근 방식을 결합한 하이브리드 아키텍처

아키텍처 최적화를 위해서는 성능과 계산 요구 사항의 균형을 맞추는 데 중점을 두고 다양한 구성 간의 체계적인 평가가 필요하며, 이는 훨씬 저렴한 비용으로 고급 추론 기능을 제공하는 DeepSeek-R1과 같은 모델의 등장으로 더욱 중요해졌습니다.

고급 교육 방법론

모델 증류

증류는 현재 AI 생태계에서 특히 강력한 도구로 부상하고 있습니다. 이 프로세스를 통해 DeepSeek-R1과 같이 더 크고 복잡한 모델의 추론 기능을 계승하는 더 작고 구체적인 모델을 만들 수 있습니다.

딥시크의 사례에서 볼 수 있듯이, 이 회사는 메타의 라마 제품군과 알리바바의 퀀 제품군의 오픈 소스 모델을 포함한 여러 소규모 모델에서 추론 기능을 추출해냈습니다. 이후 이러한 소규모 모델을 특정 작업에 맞게 최적화하여 빠르고 전문화된 모델을 향한 추세를 가속화할 수 있습니다.

머신 러닝 개발자인 샘 위트빈은 "사람들이 여러 모델을 사용하는 시대로 접어들고 있다"고 말합니다. 사람들은 항상 한 가지 모델만 사용하지 않습니다." 여기에는 "사용 사례의 80%에서 매우 잘 작동하는" Gemini Flash 및 GPT-4o Mini와 같은 저비용 폐쇄형 모델이 포함됩니다.

멀티태스크 학습

멀티태스크 학습을 사용하면 관련 기술에 대해 별도의 모델을 훈련하는 대신 모델이 서로 다른 기능 간에 지식을 공유할 수 있습니다:

  • 여러 관련 목표에 대해 동시에 최적화하는 모델
  • 기본 기능으로 다양한 작업에 폭넓게 노출되는 이점
  • 모든 작업, 특히 데이터가 제한된 작업에서 성능이 향상됩니다.
  • 컴포넌트 공유를 통한 계산 효율성 향상

감독형 미세 조정(SFT)

언어 모델 학습에 일반적으로 사용되는 웹이나 서적에서 정보를 쉽게 구할 수 없는 매우 특정한 도메인에서 활동하는 기업의 경우, 감독형 미세 조정(SFT)이 효과적인 옵션입니다.

딥시크는 '수천 개'의 질문과 답변 데이터세트로도 좋은 결과를 얻을 수 있다는 것을 보여주었습니다. 예를 들어, IBM 엔지니어 크리스 헤이는 자신이 직접 수학 관련 데이터 세트를 사용하여 소규모 모델을 설정하고 동일한 작업에서 OpenAI의 o1 모델 성능을 능가하는 매우 빠른 답변을 얻는 방법을 보여주었습니다.

강화 학습(RL)

예를 들어 고객 지원 챗봇을 공감적이면서도 간결하게 만드는 등 특정 선호도에 맞게 모델을 훈련시키고자 하는 기업은 강화 학습(RL) 기법을 구현할 수 있습니다. 이 접근 방식은 챗봇이 사용자 피드백에 따라 어조와 추천을 조정하기를 원하는 경우에 특히 유용합니다.

검색 증강 세대(RAG)

대부분의 기업에서 검색 증강 생성(RAG)은 가장 간단하고 안전한 경로입니다. 이는 비교적 간단한 프로세스로, 조직이 데이터베이스에 포함된 독점 데이터로 모델을 고정하여 정확하고 도메인에 맞는 결과물을 보장할 수 있습니다.

벡타라가 실시한 연구에 따르면, 이 접근 방식은 현재 14%의 사례에서 환각을 일으키는 DeepSeek와 같은 모델과 관련된 일부 환각 문제를 해결하는 데도 도움이 되며, OpenAI의 o3 모델의 경우 8%의 환각을 일으키는 것으로 나타났습니다.

모델 증류와 RAG의 조합은 데이터 과학이나 프로그래밍 기술이 부족한 사람들도 놀라울 정도로 쉽게 구현할 수 있어 대부분의 기업에서 마법의 힘을 발휘합니다.

평가 및 개선: 정확도 메트릭 그 이상

효과적인 AI는 원시 정확도 측면에서만 측정되는 것이 아니라 다음을 고려하는 종합적인 평가 프레임워크가 필요합니다:

  • 기능 정확도: 모델이 정확한 결과를 생성하는 빈도
  • 견고성: 다양한 입력 및 조건에서 일관된 성능 제공
  • 형평성: 다양한 사용자 그룹과 시나리오에서 일관된 성능 제공
  • 보정: 신뢰도 점수와 실제 정확도 간의 조정
  • 효율성: 계산 및 메모리 요구 사항
  • 설명 가능성: 의사 결정 과정의 투명성, 딥시크의 증류 모델이 탁월한 측면으로 추론 과정을 보여줍니다.

비용 곡선의 영향

딥시크 출시의 가장 즉각적인 영향은 공격적인 가격 인하입니다. 기술 업계에서는 시간이 지남에 따라 비용이 하락할 것으로 예상했지만, 이렇게 빨리 하락할 것이라고 예상한 사람은 거의 없었습니다. 딥시크는 강력한 개방형 모델이 저렴하면서도 효율적일 수 있다는 것을 보여줌으로써 광범위한 실험과 비용 효율적인 구현을 위한 기회를 창출했습니다.

벡타라의 CEO 아므르 아와달라는 이 점을 강조하며 진정한 티핑 포인트는 훈련 비용이 아니라 추론 비용이며, 딥시크의 경우 토큰당 추론 비용이 OpenAI의 o1 또는 o3 모델의 약 1/30 수준이라고 지적했습니다. 아와달라는 "OpenAI, Anthropic, Google Gemini가 확보할 수 있었던 마진은 이제 이러한 높은 가격으로는 경쟁력을 유지할 수 없기 때문에 최소 90% 이상 감소해야 할 것입니다."라고 말합니다.

뿐만 아니라 이러한 비용은 계속 감소할 것입니다. Anthropic의 CEO Dario Amodei는 최근 모델 개발 비용이 매년 약 4배씩 계속 감소하고 있다고 밝혔습니다. 이에 따라 LLM 공급업체가 사용료로 부과하는 요금도 계속 감소할 것입니다.

"비용이 0이 될 것으로 충분히 예상합니다."라고 TurboTax 및 Quickbooks와 같은 세무 및 회계 소프트웨어에 AI를 강력하게 추진해 온 Intuit의 CDO인 Ashok Srivastava는 말합니다. "...그리고 지연 시간은 0이 될 것입니다. 단순히 우리가 사용할 수 있는 기본 기능이 될 것입니다."

결론: 비즈니스 AI의 미래는 개방적이고 저렴하며 데이터 기반입니다.

OpenAI의 딥서치와 딥리서치는 단순히 AI 무기고의 새로운 도구가 아니라, 기업들이 비용 효율적이고 유능하며 기업 고유의 데이터와 접근 방식에 기반한 특수 목적 모델을 대량으로 배포하게 될 중대한 변화의 신호입니다.

기업에게 있어 메시지는 분명합니다. 강력한 도메인별 AI 애플리케이션을 구축할 수 있는 도구가 가까이 있다는 것입니다. 이러한 도구를 활용하지 않으면 뒤처질 위험이 있습니다. 그러나 진정한 성공은 데이터를 큐레이팅하고, RAG 및 증류와 같은 기술을 활용하고, 사전 학습 단계를 넘어 혁신을 이루는 방식에서 비롯됩니다.

AmEx의 패커가 말한 것처럼 데이터를 올바르게 관리하는 기업이 다음 AI 혁신의 물결을 주도할 것입니다.

파비오 로리아

CEO & 설립자 | Electe

Electe CEO인 저는 중소기업이 데이터에 기반한 의사 결정을 내릴 수 있도록 돕고 있습니다. 저는 비즈니스 세계의 인공 지능에 대해 글을 쓰고 있습니다.

가장 인기 있는
최신 뉴스 구독 신청하기

받은 편지함에서 주간 뉴스와 인사이트를 받아보세요
. 놓치지 마세요!

감사합니다! 제출이 접수되었습니다!
양식을 제출하는 동안 문제가 발생했습니다.