[논문리뷰] Code Llama: Open Foundation Models for Code

Meta가 Llama 2를 기반으로 구축된 코딩 전용 모델인 Code Llama 70B을 공개하였다.

Code Llama는 코드 및 자연어 prompt에서 코드를 생성할 수 있는 최신 LLM (Large Lnaguage Model, 대형언어모델).

총 3가지 버전 공개

1. Code Llama 70B

- 기본적인 코드 모델

2. Code Llama 70B - Python

- Python에 특화된 70B 모델

- Python code의 100B token에 대해 미세 조정 (fine-tuned) 됨.

3. Code Llama 70B - Instruct

- 자연어 명령을 이해하기 위해 미세 조정된 70B 모델

작동방식

Code Llama 성능평가

Bechmark set

1. HumanEval: 문서 문자열을 기반으로 코드를 완성하는 능력 평가

2. MBPP (Mostly Basic Python Programming): 설명을 기반으로 코드를 작성하는 능력 평가

- HumanEval의 경우, ChatGPT (GPT 3.5)는 48.1%, Code Llama - Python은 53.7%, GPT 4는 67%로, GPT 3.5에 비해서는 성능이 좋으나 GPT 4에 비해 상대적으로 낮은 성능을 보임.

- MBPP의 경우, ChatGPT (GPT 3.5)는 52.2%, Code Llama - Python은 65.6%, GPT 4는 reported 된 것으로 평가를 할 수 없어 Code Llama가 가장 좋은 성능을 내는 것으로 보고함. (GPT 4 평가가 들어갔다면 상황이 좀 달랐을 것으로 생각됨)

Code Llama 70B 관련 자료

- Github: https://github.com/facebookresearch/codellama

- Meta AI: https://llama.meta.com/llama-downloads/ (자료 Download)

- Perplexity: https://labs.perplexity.ai/

Code Llama 70B은 무료로 연구 및 상업적 사용 가능하도록 제공되고 있음.

저작자표시 비영리 변경금지

Bioinformatics & Language

[논문리뷰] Code Llama: Open Foundation Models for Code

작동방식

Code Llama 성능평가

Bechmark set

Code Llama 70B 관련 자료

티스토리툴바