반응형

Hugging Face에서 Bllossom 모델을 다운로드받고 Ollama에서 사용해 보자.

 

llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf를 다운로드 받았다.

 

gguf 파일이 위치한 폴더에 Modelfile 파일을 만들고 위와 같이 작성한다.

 

※ 참고

Modelfile Reference

Modelfile

■ 대표적인 주요 파라미터
- temperature: 답변의 창의성을 결정합니다. (0.0 ~ 1.0) 숫자가 높을수록 창의적이고 다양한 답변을, 낮을수록 일관되고 보수적인 답변을 생성합니다. (기본값: 0.8)
- num_ctx: 한 번에 기억하고 처리할 수 있는 최대 토큰(컨텍스트 윈도우) 크기입니다. 값을 크게 할수록 이전 대화를 더 많이 기억하지만, 하드웨어 메모리를 더 많이 사용합니다. (기본값: 2048)
- num_predict: 생성할 답변의 최대 토큰 수입니다. (기본값: -1, 무제한 생성)
- repeat_last_n: 모델이 반복되는 답변을 방지하기 위해 앞의 내용을 얼마나 참고할지 결정합니다. (0 = 끄기, -1 = 컨텍스트 크기만큼) (기본값: 64)
- repeat_penalty: 답변이 반복될 때 이를 얼마나 강하게 페널티를 줄지 설정합니다. (기본값: 1.1)
- top_k: 모델이 다음 토큰을 예측할 때 고려하는 후보군의 수를 제한해 엉뚱한 답변을 줄여줍니다. (기본값: 40)
- top_p: 확률이 높은 토큰을 누적하여 top_p 값에 도달할 때까지 후보군을 추립니다. 값이 낮을수록 더 집중된 답변을 생성합니다. (기본값: 0.9)
- min_p: 가장 확률이 높은 토큰을 기준으로, 그 비율만큼의 확률을 가진 토큰만 후보로 남깁니다. 퀄리티와 다양성을 균형 있게 맞출 때 사용합니다. (기본값: 0.0)
- seed: 난수 생성 시드(Seed)입니다. 동일한 숫자로 지정하면 매번 똑같은 질문에 대해 정확히 똑같은 답변을 얻을 수 있습니다. (기본값: 0)
- stop: 생성을 중단할 특정 문구(Stop sequence)를 지정합니다. 예: stop "User:"

 

ollama create 명령으로 모델을 생성한다.

 

모델을 생성하도록 지정한 폴더에 모델이 생성된다. (위 폴더의 내용이 모델은 아니다)

 

 

반응형

'AI, ML, DL' 카테고리의 다른 글

[Ollama] Ollama Backend Serve 백엔드 실행  (0) 2026.06.14
[Ollama] llava 동영상 분석  (0) 2026.06.14
[Ollama] Ollama with Python 2  (0) 2026.06.14
[Ollama] Ollama with Python 1  (0) 2026.06.13
[Ollama] Ollama 설치 및 간단한 실행  (0) 2026.06.13
Posted by J-sean
: