Att drifta sin egen AI – därför valde vi bort molnet

7 maj

"Det är för dyrt eller svårt att köra en egen LLM."

När vi startade vår AI-resa var det min första tanke – men vi bevisade att det både gick och faktiskt var nödvändigt.

När vi byggde CareIfAI:s AI-verktyg för neuropsykiatriska utredningar insåg vi snabbt att externa API:er inte skulle räcka.
Som företag ville vi undvika beroenden som tekniska flaskhalsar, wrapper-lösningar, outsourcing av patientdata och oförutsägbara kostnadsbilder.

Så vi tog hem modellen. Bokstavligen.

Här är några tips för entreprenörer i Sverige som överväger att utveckla AI-lösningar. Genom att ta kontroll över tekniken bygger du resiliens – därför tycker jag att det är ett alternativ som bör övervägas.

Två vägar till lokal inferens – även för små team

1. Serverlösning via Kubernetes
Kör lokala modeller i produktion via Kubernetes på exempelvis A100- eller H100-GPU:er hos lokala serverleverantörer.

Det ger dig:

Full kontroll över autoscaling
Inferensmotor med cold start-optimering
Frikopplade pods: backend, anonymisering, OCR, ASR, LLM

Du betalar endast för använd GPU-tid – med tydlig SLA och driftsupport.
Med rätt autoscaling-policy håller du budgeten i balans.

2. Bootstrap med egen hårdvara
Vill du äga hela kedjan och har en relativt konstant kundbas, kan du drifta lösningen på en hemmabyggd server.

Det är möjligt att hitta prisvärda konsumentkort med 24 GB VRAM som klarar inferens – särskilt via andrahandsmarknaden.

Vad krävs?

Ett moderkort med gott om PCIe-lanes
Effektiv kylning och rackoptimering
Stabil strömförsörjning (1000–3000 W PSU med redundans om möjligt)
Tålamod (du kommer att bygga, felsöka och optimera själv)

Men: den totala ägandekostnaden blir långt lägre än många tror – om ni har teknisk kompetens och uthållighet.

Lärdom

Du behöver inte vara ett techbolag i miljardklassen för att köra en egen LLM.
Du behöver bara vara tillräckligt envis, besatt – och villig att förstå varje led i inferensflödet.

Det är ett strategiskt hack med många fördelar:

Bättre latency
Mer kontroll
Lägre kostnad per patient
Och framför allt: lösningar som verkligen respekterar patientens integritet

/Markus Boman

lisa holmfrid

Att drifta sin egen AI – därför valde vi bort molnet

Så inför vi AI i vården – på riktigt