재테크/돈이 되는 정보

그로크(groq) 대형언어모델(LLM) 지원용 AI 추론 칩 발표

동방불패♡ 2024. 2. 24. 18:00

1. 그로크(groq)는?

그로크(groq) 설립자
Google 전임원으로 TPU(tensor processing unit) 개발을 지휘한 조나단 로스(Jonathan Ross)가 2016년에 설립한 인공지능 소프트웨어를 실행하는 반도체 개발사

언어 처리 장치(LPU) 발표
2/20일 대형언어모델(LLM)과 같은 컴퓨팅 집약적인 애플리케이션의 처리 속도를 높이기 위해 최적화한 AI 칩 ‘언어 처리 장치(LPU)’를 출시
※ LPU는 챗GPT, 제미나이, 그록, 라마와 같은 LLM의 실행 속도를 높인 추론에 특화된 칩
이 LPU를 사용한다고 해서 답변에 정확도가 높아지는 것은 아님, 답변에 정확도는 사용하는 대형언어모델에 따라 달라짐

2. 그로크(groq) LPU 추론 칩 특징

완전 결정론적 프로세서
실행 간 변동 없이 예측 가능하고 반복 가능한 성능 제공
230MB의 온라이 메모리
외부 메모리 없이도 모델 파라미터에 대한 고대역폭, 저지연 액세스를 위해 전 세계적으로 공유 가능한 대용량 SRAM을 제공
최대 80TB의 온-다이 메모리 대역폭
대역폭에 민감한 애플리케이션을 위한 대규모 동시성 및 데이터 병렬 처리
9개의 RealScale™ 칩 투 칩 커넥터
외부 스위치 없이도 선형에 가까운 멀티 서버 및 멀티 랙 확장성 제공
엔드투엔드 온칩 보호
전체 GroqChip™ 데이터 경로에서 오류 수정 코드(ECC) 보호로 가동 시간 및 안정성 향상
PCIe Gen4 x16 인터페이스
빠른 디바이스 및 네트워크 연결을 위한 업계 표준 인터페이스에서 최대 31.5GB/s의 양방향 대역폭 제공

3. 그로크(groq) 추론 칩 성능

▶Throughput
메타의 700억 매개변수 LLM ‘라마 2’에 대해 초당 241개의 토큰을 생성하는 반면, MS 애저 클라우드는 초당 19개의 토큰을 생성.
챗GPT가 그로크의 LPU 칩에서 실행될 경우 13배 이상 빠르게 실행될 수 있음을 의미

▶Total Response Time
100개의 토큰을 생성하는데 그로크는 불과 0.8초가 걸린 반면, MS는 10.1초가 걸림
그로크가 AI 챗봇과 실시간으로 대화할 수 있을 만큼 빠른 응답 시간을 제공한다는 의미

4. 그로크(groq) LPU 데모

그로크(groq)사는 LPU가 적용된 데모용 챗봇을 홈페이지에서 제공하고 있다.

홈페이지(https://groq.com)에서 직접 사용자가 원하는 질문에 대해 답변을 확인할 수 있으며, 현재 영어를 지원하고 있고 한국어의 경우 부정확할 수 있다.

현재 groq에서는 2가지의 LLM을 지원하고 있으며(Mixtral, Llama), 각 모델에 별로 답변 내용이 다른 것을 볼 수 있다.

Mixtral을 사용하는 경우는 한국어로 답변을 주기는 하지만 전체적인 문맥, 내용 및 중간에 영어 등이 추가되어 출력되는 것을 볼 수 있다.

Llama의 경우 답변이 영어로 출력되기는 하지만 내용적인 측면에서는 더 정확하게 답변하고 있다.

2가지의 답변에 대한 정확도는 그로크(groq)와 관련이 없다.
중요한 것은 답변의 속도 Mixtral  533.11 T/s, Llama 281.52T/s 놀라운 속도로 정말 실시간으로 동작하는 느낌이다.

※ T/s(테라플롭스)
테라(tera)는 10의 12승으로 그리스어의 조(兆)를, 플롭(FLOP)은 부동 소수점 연산(floating-point operations)을 말한다.
테라플롭스는 슈퍼컴퓨터의 성능을 따지는 계산속도로 1 테라플롭스는 1초에 1조 번의 부동 소수점 연산을 하는 것
533T/s = 533 x 10의 12승 (1초에 533 조번에 연산)

※ 컴퓨터에서 처리하는 데이터는 대부분 소수점 데이터로 부동 소수점을 빨리 처리하는 것이 중요

5. 어디에 활용할 수 있을까?

이 LPU에 대한 소식을 처음 접했을 때 의아한 생각이 들었다.

사실 챗GPT로 질문했을 때 답변이 얼마나 빨리 오냐가 중요한 것이 아니고 얼마나 답변이 정확한가 가 중요하다고 생각했다. 내가 챗GPT에게 질문했을 때 답변이 1초 빨리 오는 것이 그렇게 중요할까?

이 질문은 한때 통신사에서 광고하던 흡사 4G / 5G 논란과도 유사하다.
바로 빠른 속도를 활용할 Use case가 없다는 것이다.

우리가 전격 Z 작전으로 알고 있는 미국 NBC에서 방영되었던 Knight Rider에서 나오는 키트를 기억하고 있을 것이다.
키트와 같은 기술을 자동차에 적용하기 위해서는 정확도와 실시간성을 가지고 있는 챗봇이 완성되어야 한다. 하지만 현재의 챗GPT는 실시간성을 제공하고 있지 못하다.

이 부분을 그로크의 LPU를 활용해 실시간 챗봇을 만들 수 있다면 상상 속 키트가 현실로 이루어지지 않을까?