Een LLM lokaal hosten met Ollama

Ollama is een open-source applicatie waarmee gebruikers AI-modellen lokaal of op je eigen dedicated servers kunnen hosten en beheren, bijvoorbeeld GPT-Oss, Qwen of DeepSeek.

In deze handleiding laten we zien hoe je Ollama installeert, een LLM configureert en vervolgens gebruik van maakt via Ollama's REST API.

Vereiste hardware

Voor het hosten van LLM's is vaak stevige hardware nodig; bij voorkeur gebruik je een of meerdere stevige GPUs, maar het is ook mogelijk om LLMs enkel op RAM te laten werken. Let wel dat je performance dan ongeveer 10-50x trager is vergeleken met het gebruik van dedicated GPUs.

Om de hardware vereisten te verlagen kun je gebruik maken van ‘quanitzed’ modellen. Simpel gezegd comprimeer je een LLM door quantization toe te passen. Je levert dan een minimaal beetje accuratie in voor een aanzienlijke vermindering in vereiste hardware. De dynamic-quantized modellen van Unsloth zijn hier een hele goede optie voor. Pro-tip: bekijk ook eens Unsloth-studio.

In de tabel hieronder geven we een voorbeeld van verschillende hoeveelheid parameters en de hoeveelheid vRAM (of RAM, of een combi van beide) die je nodig hebt bij gebruik van Unsloth quantization voor Qwen3.5.

Qwen3.5	3-bit	4-bit	6-bit	8-bit	BF16
0.8B + 2B	3 GB	3.5 GB	5 GB	7.5 GB	9 GB
4B	4.5 GB	5.5 GB	7 GB	10 GB	14 GB
9B	5.5 GB	6.5 GB	9 GB	13 GB	19 GB
27B	14 GB	17 GB	24 GB	30 GB	54 GB
35B-A3B	17 GB	22 GB	30 GB	38 GB	70 GB
122B-A10B	60 GB	70 GB	106 GB	132 GB	245 GB
397B-A17B	180 GB	214 GB	340 GB	512 GB	810 GB

Ollama installeren en gebruiken

Stap 1

Linux (Ubuntu, AlmaLinux etc)

Je download en installeert Ollama eenvoudig met één commando:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Download Ollama via de knop hieronder. Start het gedownloade bestand en klik op ‘Install’.

Ollama downloaden

MacOS

Download Ollama via de knop hieronder. Start het gedownloade bestand en klik op ‘Install’.

Ollama downloaden

Stap 2

Ollama wordt automatisch uitgevoerd. In het geval van Linux betekent dit dat je vanuit de terminal direct Ollama een commando kunt geven. In Windows moet je de command prompt starten (Windows start-knop > cmd) en in MacOS een terminal.

Nu installeer je eenvoudig het gewenste model met het commando:

ollama run <modelnaam>:<parameters>

Bijvoorbeeld voor Qwen3.5:27b

ollama run qwen3.5:27b

Je kunt optioneel wisselen welk model je gebruikt door simpelweg het model aan te passen en het commando nogmaals uit te voeren.

Sluit tot slot de Ollama-terminal-sessie met het commando:

/bye

Je kunt nu direct gebruik maken van Ollama! Wil je vanaf een ander apparaat Ollama gebruiken? Lees dan eerst de volgende paragraaf.

Ollama gebruiken vanaf een ander apparaat

Het is mogelijk Ollama te gebruiken vanaf een ander apparaat dan het apparaat waarop je Ollama hebt geïnstalleerd. Hiervoor is een kleine aanpassing nodig in de configuratie van Ollama.

Als je deze optie gebruikt, raden we aan om de beveiliging van je server niet te vergeten. Stel bijvoorbeeld een IP-restrictie in je firewall in voor poort 11434 (de poort die Ollama gebruikt) zodat je enkel vanaf je eigen IP-adres(sen) toegang hebt. Eventueel kun je dit combineren met een eigen VPN-server.

Linux

Stap 1

Open de Ollama-service-configuratie:

nano /etc/systemd/system/ollama.service

Stap 2

Voeg onder het blok [Service] de volgende twee regels toe:

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Sla de wijzigingen op en sluit het bestand (ctrl + x > y > enter).

Stap 3

Herlaad systemd en herstart Ollama om de wijzigingen te verwerken:

systemctl daemon-reload
systemctl restart ollama

Je kunt nu ook vanaf een ander apparaat gebruik maken van Ollama, bijvoorbeeld vanaf je telefoon, zie de volgende paragraaf.

MacOS

Voer de volgende commando's uit en herstart daarna de Ollama applicatie:

launchctl setenv OLLAMA_HOST "0.0.0.0"
launchctl setenv OLLAMA_ORIGINS "*"

Je kunt nu ook vanaf een ander apparaat gebruik maken van Ollama, bijvoorbeeld vanaf je telefoon, zie de volgende paragraaf.

Windows

Stap 1

Sluit Ollama af. Onderaan rechts op de taakbalk is er een icoontje (mogelijk verborgen onder het pijltje omhoog) waar je met de rechter muisknop op kunt klikken en vervolgens ‘Quit Ollama’ kunt selecteren om het af te sluiten.

Stap 2

Druk tegelijkertijd op je toetsenbord op het Windows Start-icoon + R. Het uitvoeren/run-scherm verschijnt. Type hier het commando 'sysdm.cpl' en druk op 'OK' of de enter-toets.

run sysdm

Stap 3

Klik op het tabblad 'Advanced' > 'Environment Variables'.

system properties advanced environment variables

Stap 4

Klik onder ‘User variables for <jegebruikersnaam>’ op ‘New…’.

Een ‘New User Variable’-pop-up-venster verschijnt. Gebruik als ‘Variable name’ de naam ‘OLLAMA_HOST’ en als ‘Variable value’ de waarde ‘0.0.0.0’ en klik op ‘OK’

Herhaal deze stap en voeg deze keer een variabele toe met de naam ‘OLLAMA_ORIGINS’ en de waarde ‘*’.

Start tot slot Ollama opnieuw op. Je kunt nu ook vanaf een ander apparaat gebruik maken van Ollama, bijvoorbeeld vanaf je telefoon, zie de volgende paragraaf.

Je Ollama-hosted LLM gebruiken

Het moment waar je op zat te wachten is aangebroken: het gebruik van Ollama. Er zijn meerdere opties beschikbaar om Ollama te gebruiken, maar we raden er drie aan:

OpenWeb UI: met Open WebUI voeg je een laag
Chatboxai: een chat programma enigszins vergelijkbaar met ChatGPT, maar dan enkel met chatfunctionaliteit
API: jouw self-hosted LLMs zijn via een REST API beschikbaar

ChatboxAI

ChatboxAI is een AI client applicatie waarmee je eenvoudig verbindt met vele AI modellen en APIs vanaf je computer, telefoon, of tablet. Je installeert en gebruikt ChatboxAI grotendeels op dezelfde manier op al je apparaten:

Stap 1

Download ChatboxAI vanaf https://chatboxai.app of de link hieronder. Open het gedownloade bestand en doorloop de installatie.

Chatbox downloaden

Stap 2

Chatbox start doorgaans automatisch, zo niet, start het dan op. Je krijgt nu een automatische configuratiewizard te zien en kunt eventueel de instellingen altijd aanpassen via het ‘Settings’-tandwiel. Pas de volgende gegevens aan:

API Host: Pas dit enkel aan als je Ollama vanaf een ander apparaat gebruikt dan het apparaat waar je het op host. Wijzig in dat geval het local host IP-adres http://127.0.0.1:11434 naar het externe IP-adres van je server/computer, bijvoorbeeld http://123.123.123.213:11434.
Model: Selecteer het gewenste Ollama-model. Je kunt dit later altijd aanpassen in een chatsessie.

Je kunt nu direct aan de slag met Ollama via Chatboxai. Er zijn al een paar voorbeelden automatisch opgenomen in Chatbox waarin het model een instructie mee heeft gekregen, zoals in het voorbeeld hieronder waarin het gekozen LLM de instructie krijgt om zich te gedragen als een softwareontwikkelaar.

API

Een van de handigste features van Ollama is dat je zonder kosten gebruik kunt maken van een API om modellen in je eigen project te integreren. Als kers op de taart werkt dit ook nog relatief eenvoudig. Hieronder geven we een Python voorbeeld.

Vereisten

Python (een up-to-date versie): Veel besturingssystemen ondersteunen python out-of-the-box en de installatie valt dan ook buiten de scope van deze handleiding.
De OpenAI module voor Python: Installeer de module via een terminal/cmd met het commando: pip install openai

De basics

Stap 1

Maak een .py-bestand aan (bijv ai.py) en voeg de volgende code toe (vervang deepseek-r1:32b door je gekozen model):

import openai
client = openai.Client(
    base_url="http://127.0.0.1:11434/v1",
    api_key="ollama"
)
response = client.chat.completions.create(
    model="deepseek-r1:32b",
    messages=[{"role": "system", "content": "You're a helpful assistant."},{"role": "user", "content": "Hello"}],
    temperature=0.7 
)
print(response.choices[0].message.content)

Pas optioneel 127.0.0.1 aan naar het publieke IP-adres van je server en 32b (achter model =) naar het aantal parameters van het gebruikte model.
“You're a helpful assistant.” is de instructie voor het model voor de chat begint. Je bent vrij dit een stuk uitgebreider te maken.
“Hello" is jouw prompt/vraag aan je gekozen model. Pas dit uiteraard ook naar wens aan.
Het print-commando zorgt ervoor dat de output in je terminal getoond wordt.

Stap 2

Voer het .py bestand uit, bijvoorbeeld (in Windows):

c:\Ollama>ai.py

De output ziet er ongeveer als volgt uit:

<think>
Okay, the user asked me to act as a helpful assistant. I need to respond in a friendly and approachable way. Maybe say something like, "I'm here to help! How can I assist you today?" That should cover it.
</think>
Hello! I'm here to help. What do you need assistance with?

So far so good: Ollama laat zijn gedachte zien en die zal bij herhaaldelijk gebruik van dezelfde prompt variëren. Maar… na het uitvoeren van ai.py wordt eenmaal het script uitgevoerd en afgesloten. Hoe kun je in een terminal een doorlopende chatsessie voeren? Dat brengt ons bij de volgende paragraaf

Een doorlopend gesprek voeren

Na de basics ben je al een heel eind. Voor het gemak laten we hieronder nog een voorbeeld zien hoe je een doorlopend gesprek voert, met dank aan DeepSeek die zelf dit voorbeeld genereerde:

import openai
# Create the client
client = openai.Client(
    base_url="http://127.0.0.1:11434/v1",
    api_key="ollama"
)
# Start your conversation history
messages = [
    {"role": "system", "content": "You're a helpful assistant."}
]
while True:
    # Ask for user input
    user_input = input("User: ")
    
    # If user types something like 'exit' or 'quit', break out
    if user_input.lower().strip() in ["exitchat", "quitchat"]:
        print("Exiting...")
        break
    # Add the user's message to the conversation
    messages.append({"role": "user", "content": user_input})
    # Generate assistant response
    response = client.chat.completions.create(
        model="deepseek-r1:32b",
        messages=messages,
        temperature=0.7
    )
    
    # Grab the assistant's reply
    assistant_reply = response.choices[0].message.content
    print("Assistant:", assistant_reply)
    
    # Append assistant message to the conversation so context is maintained
    messages.append({"role": "assistant", "content": assistant_reply})

Pas optioneel 127.0.0.1 aan naar het publieke IP-adres van je server en het gekozen model (achter model =) aan naar het gewenste model.
“You're a helpful assistant.” is de instructie voor het model voor de chat begint. Je bent vrij dit een stuk uitgebreider te maken.
“User:" geeft aan dat dit is waar jouw input komt
exitchat en quitchat sluiten de chatsessie af

Voer het .py bestand uit, bijvoorbeeld (in Windows):

c:\Ollama>ai.py

Deze keer kun je daadwerkelijk een chat-sessie voeren met je gekozen model. Pas op: het denkproces (<think>….</think>) kan behoorlijk uitgebreid zijn.

Daarmee zijn we aan het eind gekomen van deze handleiding over het zelf hosten van Ollama. Veel succes!

Sorry, we konden geen resultaten vinden voor jouw zoekopdracht.

Account

Bestellingen & Facturatie

Overige vragen

Domeinen & DNS

Webhosting & E-mail

STACK

VPS

OpenStack

Kubernetes

Overige producten

Een LLM lokaal hosten met Ollama

Vereiste hardware

Ollama installeren en gebruiken

Linux (Ubuntu, AlmaLinux etc)

Windows

MacOS

Ollama gebruiken vanaf een ander apparaat

Linux

MacOS

Windows

Je Ollama-hosted LLM gebruiken

ChatboxAI

API

Vereisten

De basics

Een doorlopend gesprek voeren

Inhoudsopgave

Kom je er niet uit?