마이크로소프트, 신규 SLM 파이-3.5 출시 "메타·구글 모델보다 뛰어나"

Software 2024.08.23. 09:07

78 2 0

출처	https://www.itworld.co.kr/news/348121#cs...26773fc600

마이크로소프트가 허깅 페이스(Hugging Face)에서 SLM(Small Language Model) 파이(Phi)의 업데이트된 버전을 출시했다. 마이크로소프트는 새로운 파이 모델이 메타 및 구글을 비롯한 경쟁사에서 제공하는 유사한 제품보다 성능이 뛰어나다고 주장했다.

이번에 출시된 모델은 ▲파이-3.5-MoE-인스트럭트(Phi-3.5-MoE-instruct) ▲파이-3.5-미니-인스트럭트(Phi-3.5-mini-instruct) ▲Phi-3.5-비전-인스트럭트(Phi-3.5-vision-instruct) 등 3가지로 구성된 파이-3.5 제품군이다. 지난 4월에 발표한 파이-3 플랫폼을 개방형 MIT 라이선스에 따라 업데이트했다.

회사에 따르면 파이-3.5-MoE-인스트럭트 모델은 파이-3 합성 데이터에 사용되는 데이터 세트와 추론 밀도가 높은 고품질 데이터에 중점을 두고 공개적으로 사용 가능한 문서를 필터링해 구축한 경량 모델이다. 이 모델은 다국어를 지원하며, 12만 8,000개의 토큰 컨텍스트 창을 제공한다.

마이크로소프트에 따르면, 파이-3.5-MoE는 상업 및 연구용으로 사용할 수 있다. 허깅 페이스의 모델 설명에는 "이 모델은 메모리/컴퓨팅 제약 환경, 지연 시간 제한 시나리오, 강력한 추론(특히 코드, 수학 및 논리)이 필요한 범용 AI 시스템 및 애플리케이션에 사용"할 수 있으며, "언어 및 멀티모달 모델에 대한 연구를 가속화하여 생성형 AI 기반 기능의 빌딩 블록으로 사용하기 위해 설계됐다"라고 나와 있다.

빅벤치(BigBench), MMLU, ARC 챌린지(ARC Challenge) 등 추론 및 다국어 능력에 대한 모델을 평가하는 벤치마크에서 MoE-인스트럭트 모델은 경쟁사보다 적은 수의 파라미터(66억 개)를 사용해 라마 3.1-8B-인스트럭트(Llama 3.1-8B-instruct), 젬마 2-9b-It(Gemma 2-9b-It), 제미나이 1.5-플래시(Gemini 1.5-Flash)보다 나은 성능을 보였다. 그러나 오픈AI의 챗GPT-4o-미니(chatGPT-4o-mini-2024-07-18)의 성능에는 미치지 못했다.

또한 마이크로소프트는 파이-3.5-MoE 모델이 특정 규모의 작업에 따라서 근본적으로 제한이 있다고 지적했다. "이 모델에는 너무 많은 사실 지식을 저장할 수 있는 용량이 없기 때문에 사용자가 사실에 대한 부정확성을 경험할 수 있다"라며 RAG(Retrieval-Augmented Generation) 설정에서 모델을 사용할 때 검색 엔진으로 파이 3.5를 보강하면 이런 약점을 해결할 수 있다고 덧붙였다.

마이크로소프트는 엔비디아 H100-80G GPU를 사용해 4조 9,000억 개의 토큰을 훈련 데이터로 23일 동안 512개의 모델을 훈련했다.

MoE 인스트럭트와 마찬가지로 12만 8,000개 토큰 컨텍스트 길이를 지원하는 미니 인스트럭트 모델도 대부분의 경쟁 제품보다 성능이 좋았지만 오픈AI의 최신 4o 미니 모델보다는 뒤처진다. 미니 인스트럭트 모델은 사용자 피드백을 바탕으로 2024년 6월 인스트럭션이 조정된 파이-3 미니(Phi-3 Mini)의 업데이트이며, 추가 학습 후 데이터를 사용하여 다국어, 멀티턴(multi-turn) 대화 품질 및 추론 능력이 향상했다고 마이크로소프트는 설명했다.

파이-3.5-미니는 38억 개의 파라미터를 가지고 있으며, 파이-3 미니와 동일한 낱말 분석기(tokenizer)를 사용하는 고밀도 디코더 전용 트랜스포머 모델이다. 10일 동안 3조 4,000개의 토큰으로 512개의 엔비디아 H100-80G GPU로 훈련됐다.

또한, 세 번째 신규 모델인 파이-3.5-비전 인스트럭트 역시 더 적은 매개변수에도 불구하고 클로드-3.5-소네트(Claude-3.5-Sonnet) 및 GPT-4o-미니 등의 경쟁사 제품보다 우수한 성능을 보였다고 마이크로소프트는 밝혔다.

42억 개의 파라미터와 이미지 인코더, 커넥터, 프로젝터, 파이-3-미니(Phi-3-Mini) 언어 모델을 포함하는 파이 3.5 비전 인스트럭트는 12만 8,000개의 토큰 컨텍스트 창을 지원하며, 6일 동안 5,000억 개의 비전 및 텍스트 토큰으로 256개의 엔비디아 A100-80G GPU로 훈련됐다.