Kā lokāli lejupielādēt un instalēt Llama 2 - |Tehnoloģijas skaidrojums|DIY|

Tādi lasītāji kā jūs palīdz atbalstīt MUO. Veicot pirkumu, izmantojot saites mūsu vietnē, mēs varam nopelnīt filiāles komisiju. Lasīt vairāk.

Meta izlaida Llama 2 2023. gada vasarā. Jaunā Llama versija ir precīzi noregulēta ar par 40% vairāk marķieru nekā sākotnējais Llama modelis, tādējādi dubultojot tā konteksta garumu un ievērojami pārspējot citus pieejamos atvērtā pirmkoda modeļus. Ātrākais un vienkāršākais veids, kā piekļūt Llama 2, ir, izmantojot API, izmantojot tiešsaistes platformu. Tomēr, ja vēlaties iegūt vislabāko pieredzi, vislabāk ir instalēt un ielādēt Llama 2 tieši datorā.

pārvietot iPhone dublējumu uz ārējo disku

Paturot to prātā, esam izveidojuši detalizētu rokasgrāmatu par to, kā izmantot Text-Generation-WebUI, lai datorā lokāli ielādētu kvantētu Llama 2 LLM.

Kāpēc instalēt Llama 2 lokāli

Ir daudz iemeslu, kāpēc cilvēki izvēlas tieši vadīt Llama 2. Daži to dara privātuma apsvērumu dēļ, daži pielāgošanai, bet citi bezsaistes iespēju dēļ. Ja pētāt, precizējat vai integrējat Llama 2 savos projektos, piekļuve Llama 2, izmantojot API, var nebūt jums piemērota. LLM darbības mērķis datorā ir samazināt paļaušanos uz trešās puses AI rīki un izmantojiet AI jebkurā laikā un vietā, neuztraucoties par potenciāli sensitīvu datu noplūdi uzņēmumiem un citām organizācijām.

To sakot, sāksim ar soli pa solim ceļvedi par Llama 2 instalēšanu lokāli.

1. darbība. Instalējiet Visual Studio 2019 veidošanas rīku

Lai vienkāršotu lietas, mēs izmantosim viena klikšķa instalēšanas programmu Text-Generation-WebUI (programma, ko izmanto, lai ielādētu Llama 2 ar GUI). Tomēr, lai šis instalētājs darbotos, jums ir jālejupielādē Visual Studio 2019 Build Tool un jāinstalē nepieciešamie resursi.

Lejupielādēt: Visual Studio 2019 (bezmaksas)

Turpiniet un lejupielādējiet programmatūras kopienas izdevumu.
Tagad instalējiet Visual Studio 2019, pēc tam atveriet programmatūru. Pēc atvēršanas atzīmējiet izvēles rūtiņu Darbvirsmas izstrāde ar C++ un nospiediet instalēt.

Tagad, kad ir instalēta darbvirsmas izstrāde ar C++, ir pienācis laiks lejupielādēt teksta ģenerēšanas WebUI instalēšanas programmu ar vienu klikšķi.

2. darbība. Instalējiet Text-Generation-WebUI

Text-Generation-WebUI viena klikšķa instalēšanas programma ir skripts, kas automātiski izveido vajadzīgās mapes un iestata Conda vidi un visas nepieciešamās prasības, lai palaistu AI modeli.

Lai instalētu skriptu, lejupielādējiet viena klikšķa instalētāju, noklikšķinot uz Kods > Lejupielādēt ZIP.

Lejupielādēt: Teksta ģenerēšanas WebUI instalēšanas programma (bezmaksas)

Pēc lejupielādes izvelciet ZIP failu vēlamajā vietā un pēc tam atveriet izvilkto mapi.
Mapē ritiniet uz leju un atrodiet savai operētājsistēmai atbilstošo starta programmu. Palaidiet programmas, veicot dubultklikšķi uz atbilstošā skripta.
- Ja izmantojat operētājsistēmu Windows, atlasiet start_windows sērijveida fails
- operētājsistēmā MacOS atlasiet start_macos čaumalas skripts
- operētājsistēmai Linux, start_linux čaulas skripts.
Jūsu pretvīrusu programma var radīt brīdinājumu; tas ir labi. Uzvedne ir tikai an antivīruss viltus pozitīvs sērijveida faila vai skripta palaišanai. Klikšķiniet uz Skrien tik un tā .
Tiks atvērts terminālis un sāksies iestatīšana. Sākumā iestatīšana tiks apturēta un jautās, kādu GPU izmantojat. Atlasiet datorā instalēto atbilstošo GPU veidu un nospiediet taustiņu Enter. Tiem, kuriem nav speciālas grafiskās kartes, atlasiet Nav (es vēlos palaist modeļus CPU režīmā) . Ņemiet vērā, ka darbība CPU režīmā ir daudz lēnāka, salīdzinot ar modeļa darbināšanu ar īpašu GPU.
Kad iestatīšana ir pabeigta, tagad varat lokāli palaist Text-Generation-WebUI. To var izdarīt, atverot vēlamo tīmekļa pārlūkprogrammu un URL ievadot norādīto IP adresi.
WebUI tagad ir gatava lietošanai.

Tomēr programma ir tikai modeļa ielādētājs. Lejupielādēsim Llama 2, lai palaistu modeļu ielādētājs.

kā tu spēlē minecraft ar draugiem

3. darbība. Lejupielādējiet Llama 2 modeli

Izlemjot, kura Llama 2 iterācija jums ir nepieciešama, ir jāņem vērā vairākas lietas. Tie ietver parametrus, kvantēšanu, aparatūras optimizāciju, izmēru un lietojumu. Visa šī informācija būs norādīta modeļa nosaukumā.

Parametri: Modeļa apmācībai izmantoto parametru skaits. Lielāki parametri padara modeļus jaudīgākus, taču uz veiktspējas rēķina.
Lietošana: Var būt standarta vai tērzēšanas. Tērzēšanas modelis ir optimizēts lietošanai kā tērzēšanas robots, piemēram, ChatGPT, savukārt standarta modelis ir noklusējuma modelis.
Aparatūras optimizācija: Attiecas uz to, kura aparatūra vislabāk darbojas ar modeli. GPTQ nozīmē, ka modelis ir optimizēts darbam ar speciālu GPU, savukārt GGML ir optimizēts darbam ar centrālo procesoru.
Kvantēšana: Apzīmē svaru un aktivizācijas precizitāti modelī. Lai izdarītu secinājumus, q4 precizitāte ir optimāla.
Izmērs: Attiecas uz konkrētā modeļa izmēru.

Ņemiet vērā, ka daži modeļi var būt izkārtoti atšķirīgi un tajos var nebūt viena veida informācija. Tomēr šāda veida nosaukumu piešķiršanas konvencija ir diezgan izplatīta HuggingFace Modeļu bibliotēka, tāpēc to joprojām ir vērts saprast.

Šajā piemērā modeli var identificēt kā vidēja lieluma Llama 2 modeli, kas apmācīts uz 13 miljardiem parametru, kas optimizēti tērzēšanas secinājumiem, izmantojot īpašu centrālo procesoru.

Tiem, kas darbojas ar īpašu GPU, izvēlieties a GPTQ modeli, savukārt tiem, kas izmanto centrālo procesoru, izvēlieties GGML . Ja vēlaties tērzēt ar modeli tāpat kā ar ChatGPT, izvēlieties tērzēšana , bet, ja vēlaties eksperimentēt ar modeli, izmantojot visas tā iespējas, izmantojiet standarta modelis. Runājot par parametriem, ziniet, ka lielāku modeļu izmantošana nodrošinās labākus rezultātus uz veiktspējas rēķina. Es personīgi ieteiktu jums sākt ar 7B modeli. Kas attiecas uz kvantēšanu, izmantojiet q4, jo tas ir paredzēts tikai secinājumu izdarīšanai.

Lejupielādēt: GGML (bezmaksas)

Lejupielādēt: GPTQ (bezmaksas)

Tagad, kad zināt, kāda Llama 2 iterācija jums ir nepieciešama, lejupielādējiet vajadzīgo modeli.

bezmaksas filmas tiešsaistē bez reģistrēšanās

Manā gadījumā, tā kā es to izmantoju ultrabook datorā, es izmantošu GGML modeli, kas ir precīzi pielāgots tērzēšanai, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Kad lejupielāde ir pabeigta, ievietojiet modeli text-generation-webui-main > modeļiem .

Tagad, kad modelis ir lejupielādēts un ievietots modeļa mapē, ir pienācis laiks konfigurēt modeļa ielādētāju.

4. darbība: konfigurējiet teksta ģenerēšanas tīmekļa saskarni

Tagad sāksim konfigurācijas fāzi.

Vēlreiz atveriet Text-Generation-WebUI, palaižot start_(jūsu OS) failu (skatiet iepriekšējās darbības iepriekš).
Cilnēs, kas atrodas virs GUI, noklikšķiniet uz Modelis. Modeļa nolaižamajā izvēlnē noklikšķiniet uz atsvaidzināšanas pogas un atlasiet savu modeli.
Tagad noklikšķiniet uz nolaižamās izvēlnes Modeļa iekrāvējs un atlasiet AutoGPTQ tiem, kas izmanto GTPQ modeli un ctransformatori tiem, kas izmanto GGML modeli. Visbeidzot noklikšķiniet uz Ielādēt lai ielādētu savu modeli.
Lai izmantotu modeli, atveriet cilni Tērzēšana un sāciet modeļa testēšanu.

Apsveicam, jūs esat veiksmīgi ielādējis Llama2 savā lokālajā datorā!

Izmēģiniet citus LLM

Tagad, kad zināt, kā palaist Llama 2 tieši savā datorā, izmantojot teksta ģenerēšanas tīmekļa saskarni, jums vajadzētu būt iespējai bez Llama palaist arī citus LLM. Vienkārši atcerieties modeļu nosaukumu piešķiršanas noteikumus un to, ka parastajos personālajos datoros var ielādēt tikai modeļu kvantitatīvās versijas (parasti q4 precizitāte). Vietnē HuggingFace ir pieejami daudzi kvantizēti LLM. Ja vēlaties izpētīt citus modeļus, HuggingFace modeļu bibliotēkā meklējiet TheBloke, un jums vajadzētu atrast daudzus pieejamos modeļus.