Nu när AI är överallt. Använder ni det?

0485 · edit-2 7 months ago

Nu när AI är överallt. Använder ni det?

ffhein · edit-2 7 months ago

Aldrig hört talas om Serge, men det ser ut som att projektet fortfarande lever och uppdateras iaf. Det är baserat på llama.cpp, så jag tror det ska fungera med ROCm (dvs. AMD gpu). Och eftersom det bygger på llama.cpp så behöver du en modell i GGUF-format. Sen har llama.cpp en unik funktion att den klarar av att dela upp arbetet mellan CPU och GPU, vilket gör att du kan köra större modeller ifall du är villig att offra en del hastighet, men jag tror det är en bra start att köra någon sorts standardmodell som får plats helt i VRAM, så kan du experimentera med finetune:ade modeller och annat när du vet att saker fungerar som det ska.

Det som avgör hur mkt VRAM som behövs är en kombination av antalet parametrar i modellen (e.g. 7B, 12B, osv), hur stor kontext du använder (typ. hur pass långt korttidsminne AI:n får. Mer kontext -> längre konversation innan den glömmer bort de äldsta meddelandena) och vilken kvantiseringsnivå av modellen du laddat hem (typ motsvarande komprimering av film/bilder). Sen tappar du även lite VRAM till operativsystemet ifall du bara har ett grafikkort i datorn. Jag tror Mistral Nemo Instruct med Q4_K_M kvantisering, och kanske 8000 kontext, skulle gå in i VRAM för dig, den går att ladda ner här: https://huggingface.co/bartowski/Mistral-Nemo-Instruct-2407-GGUF/tree/main

De flesta modellerna som tränas är censurerade till någon grad, men det är många privatpersoner som gör sitt bästa för att ta bort det av olika anledningar. Vill du ha en sån modell så har de ofta OAS eller “abliterated” i namnet.

Vill du testa att köra lite större modeller med partial offloading (CPU+GPU) så kolla in CmdR och Mixtral 8x7b. Mixtral börjar bli lite gammal, men den är snabb att köra på CPU tack vare MoE arkitekturen. Du kan även testa 70B modeller som Miqu etc. men då får du nog räkna med max 0.5 ord/sekunden.

Kan även rekommendera TheBloke’s discord server ifall du behöver hjälp med något, eller tips om de senaste modellerna.

@[email protected] · 7 months ago

Det blev Ollama, fick igång det förut och har provat Llama 3.1 8B, Codegemma 7b och fick precis igång Mistral Nemo Instruct du tipsade om. Var lite pilligt att få den att använda GPUn, 6700XT har inte stöd än av ROCm tydligen men funkar om man lurar den att det är ett 6800 med en miljövariabel. Då gick det genast mycket fortare mot CPUn som det var först. Ja sant med VRAMen det går åt en del, eftersom Plasma med Firefox och lite annat igång vill ha runt 3 GB. Llama 3.1 8B vill ha 7GB VRAM så har 20% ungefär kvar att använda.

Har ju bara doppat tårna precis men kul att vara igång. Skönt att inte mata nån modell i molnet längre den här vägen blir det i fortsättningen. Ska fördjupa mig lite senare när jag får mer tid över. Sparar ditt inlägg, bra info. Tack för hjälpen.

ffhein · 7 months ago

Kör du Wayland, och/eller har flera högupplösta skärmar? Jag kör X11 och har en 1440p skärm och en 1080p, men jag tappar bara 1.15GiB vram till OS:et enligt nvtop. Kör också Plasma och Firefox då. För ett tag sedan så försökte jag få datorn att använda Ryzen APU:n för OS:et, och lämna hela GPU:n ledig för LLM och spel etc. Det svåra var att få GPU forwarding att fungera, så jag inte skulle behöva dubbla uppsättningar skärmkablar, och förstås lite meck med att köra både AMD och Nvidia samtidigt, men det kanske är lättare med ett AMD-kort ifall det är något du är intresserad av att undersöka i framtiden.

@[email protected] · 7 months ago

Oj det var rimligare, ja jag har misstänkt jag legat lite väl högt i VRAM användning. Yep, jag kör Wayland men är rätt säker på jag låg högt på X11 också. Ska prova X11 imorn för säkerhets skull. Ser inga direkta syndabockar när jag kör nvtop, 2.7 GB idag med min vanliga användning. Firefox vill ha 564 MB och sen 147 MB i nån -contentproc process som jag inte vet vad den gör. Det är väl det enda som sticker ut. Men kör HW acceleration med VAAPI så antar att det är det. Vill nog helst ha det då jag tittar på många streams i webbläsaren. Använda APU samtidigt till sånt är fiffigt men har tyvärr ingen sådan i min dator bara ett 6700XT och en Ryzen 3700x. Har bara en 144hz skärm och en TV inkopplad kan prova dra ur sladden till TVn imorn också, använder bara en skärm åt gången. Jao APU eller en till GPU att avlasta med hade varit något det, får skriva upp det på önskelistan. Med nuvarande bygge blir det nog försöka få ner VRAM användningen en aning på nåt sätt ska pröva lite mer imorn.

ffhein · 7 months ago

För mig så drar Xorg ca 300MB, Firefox 150MB, kwin_x11 100MB, Discord och plasmashell 50MB vardera. Compositing i KDE är på, men VAAPI i Firefox är avstängt. Har för mig jag stängde av det för det var problem när jag skulle streama något, men jag tycker CPU-avkodning har funkat bra så jag hade glömt bort att jag ens ändrade det.

Om du ska försöka få igång GPU passthrough i framtiden så finns det en del resurser för hur laptops gör det, men det verkar som att det endera är Intel CPU + Nvidia GPU, eller AMD + AMD, så ifall du ska uppgradera något så kan det vara värt att ha i åtanke. Jag fick AMD + Nvidia att typ fungera, men jag lyckades inte få den att stänga av GPU:n helt när den inte användes så den låg och drog 30W i onödan.

Själv jag ett begagnat RTX3090 för att få 24GB VRAM. Kollade blocket varje dag tills jag hittade ett för 7300kr med köpskydd, vilket kändes som ett nästan rimligt pris :) Hade dock behövt det dubbla för att kunna köra ännu finare modeller, men då kostar det verkligen skjortan…

@[email protected] · 7 months ago

Det var nog Wayland, 1.2-1.7GB med X11. Har iofs stängt av HW acceleration i några program också men verkar ändå ligga minst 500MB lägre. Alltså vi får nog vänta ett tag till innan Wayland är bättre än X11 tycker mest det är nackdelar fortfarande. Hade något märkligt blinkande på X11 så det var därför jag bytte men verkar ha löst det också med att köra skärmen på 120 HZ istället. Ska prova lite tyngre modeller då när det finns lite mer utrymme. Är glad jag inte snålade med ett 6700, 10GB VRAM men skulle gått på 16 eller mer med facit i hand. Aja det här duger så länge är mest glad det funkar så här pass bra jämfört med gratis varianterna i molnet.

Ja det blir nog GPU passthrough i framtiden kan man ju köra Windows i ett VM också för vissa spel hade varit nice. Aha ja Team Red är det som gäller här så det låter ju bra det kan funka så man slipper byta lag.

Det var en riktigt bra deal. 3090 var ett monster när det var nytt så borde hålla rätt bra. Generöst med VRAM är ju trevligt för att vara Nvidia.

ffhein · 7 months ago

Kanske minns fel och blandar ihop termerna, men den sortens GPU passthrough jag tänkte på är att låta signalen från det bättre grafikkortet skickas genom APU:ns kontakt så man slipper ha dubbla monitorkablar. Men det är klart, ifall jag skulle kunna köra Windows i VM med 100% prestanda så skulle jag slippa dual boota för VR.

Uppgraderade från 3080 så minimal skillnad bortsett från minnet :D Men vi får hoppas att AMD satsar mer på ROCm i framtiden, de har ju varit mer generösa med VRAM på sina kort.

@[email protected] · 7 months ago

Ok ja det kan va olika passthrough, är inte jättepåläst, det verkar rätt komplicerat. Tänkte nåt sånt här. Eller detta typ som man låter ett VM ta full kontroll över en USB-enhet men iom grafikkortet även ger bild så försvinner ju den från hosten ifall man skickar det till VMet så då måste ju något annat ta över. Verkar kräva två uppsättningar kablar kopplade till vardera GPU. Du pratar om en slags laptoplösning för en desktop?

ffhein · 7 months ago

Exakt, men det var nog hybrid graphics det hette. Tanken var dels att lämna 100% vram ledigt för AI och dels för att spara ström genom att sätta Nvidia-kortet i sovläge när det inte används. Fick det typ att fungera, men de återstående problemen var att Xorg alltid körde på Nvidia-kortet (andra program default:ade till iGPUn, om jag inte explicit sa att de skulle köra på Nvidia) och jag kunde inte få något annat än 60Hz till skärmarna. Sen sa rocm-smi eller ngt liknande program att iGPU:n drog 30W när den användes, vilket är lika mkt som RTX-kortet drar i idle, så ifall det är korrekt så skulle det ändå inte bli någon strömbesparing.