Jump to content
Forumu Destekleyenlere Katılın ×
Paticik Forumları
2000 lerden beri faal olan, çok şukela bir paylaşım platformuyuz. Hoşgeldiniz.

Ollama ve benzeri şeyler


Bone

Öne çıkan mesajlar

Ollama ile Chat GPT tarzı bir aracı ve offline olarak kullanabiliyormuşuz.

Bunu kullanan, deneyimi, bilgisi olan var mı?

Merak ettiğim bazı şeyler var, mesela Chat GPT yerine Ollama kurup kullanmanın bize ne gibi avantajı var?

Python ile kodlarda neyi ne kadar modifiye edebiliyoruz ve modifiye etmemizin bize faydası oluyor mu?

Ayrıca agentlar üstünden specialist yaratmanın bize pratikte ne avantajı oluyor? Yani mesela bir car salesman, bir de car repairman yarattık diyelim. Bu ikisine soracağımız soruların cevapları aynı kaynaklardan, aynı database'den gelmeyecek mi? Farklı farklı agentlar yaratmanın pratikte hissedilir etkisi oluyor mu?

Link to comment
Sosyal ağlarda paylaş

  • Genel Yönetici

Öncelikle Ollama bu işi yapabileceğin en kötü yazılımlardan. Kökeni Mac ve Mac kafasıyla yapılmış, basit ve kontrol nispeten kısıtlı.

Kullanabileceğin farklı şeyler var. Oobabooga ya da KoboldCCP kullan derim.

Ara yün olarak da bir sürü şey var kullanabileceğin. Benim kullandığım LibreChat. Local model olarak şu anda Llama 3 8b ve Mixtral 8x7b yüklü şu anda sistemde. Ama neredeyse hiç kullanmıyorum bunları. Anthropic'den Claude Sonnet kullanıyorum genelde gerektiğinde API ile. Opus açtığım da oluyor sorunun önermine göre. Çeviri için Gemini 1.5 Pro kullanıyorum. Gemini de API üzerinden. Toplam Claude kullanımın ayda $5-$10 arası oluyor, çok değil.

Bu aralar Llama 3 70b deniyorum ama bilgisayarda çok yavaş çalışıyor, Groq API'si üzerinden ücretsiz erişimim var ama, oradan bakıyorum. Quantize edilerek küçültülebiliyorlar ama aptallaşıyorlar o zaman da. 8 bit altında güvenilir değil, o bile bazen tam FP16 modelin yapmadığı hataları yapıyor. Llama 3 70b ancak 4 bit olunca yeterli hızda, ama ona da tam güvenmem işte.

API daha iyi her şekilde, pahalı da değil.

D&D için de yoğun kullanıyorum, Bestiary doldurmak vb. şeylerde faydalı. Ama genel olarak local modeller bir yere kadar, ChatGPT ile (GTP 3,5 olan) aynı performansa sahipler. Neredeyse Llama 3 8b bile ChatGPT'den ya da Mixtral 8x7b'den daha kaliteli cevaplar veriyor.

Sonuç olarak, yerel kullanmak eğer özel olarak kullanmak için bir nedenin yoksa gereksiz. Çalıştırmak için 3090 ya da 4090 lazım (FP16 Llama 3 8b 18GB VRAM istiyor) ve sonuçlar API kullanımı ile alabileceğinden daha kötü.

Epey kalitesi ve ücretsiz API'ler var. Cohere Command R+, Llama 3 70b, Gemini 1.5 Pro ücretsiz kapsamlı kullanılabiliyor. Claude ve GPT 4 Turbo modelleri de aylık kullamın bir akşam yemeği fiyatına gelecek kadar ucuz.

Diyeceğim budur ki; eğer LLM kullanmak istiyorsan LibreChat kullan etkileşime girmek için, modelleri çalıştırmak için de Oobabooga ile başla. Daha özelleştirilmiş programlar için TabbyAPI ya da KoboldCCP kullanabilirsin.

  • Tesekkurler 1
Link to comment
Sosyal ağlarda paylaş

Gerge bi tik zorundan girdi olaya. 🙂

 

Local llmler internetten bagimsiz kendi kaynakarinla calistirabildigin modeller oluyorlar. Degisik arayuzlerle calitirabiliyorsun bunlari. Ollama config etmek biraz zor. Config eski usul dosya editleyerek yapiyorsun. 

Onun yerine gergenin bahsettigi gene acik kaynak kodlu arayuzlu uygulamalar kullanilabiliyor.

Yakin zamanda 8 gb ekran kartina sigabilecek kaliteli llmler dusmeye basladi ortaliga. Bunlar biraz zorlanirsa GPT-4 ayarinda sonuclar verebiliyorlar. Bu tamamen yazacaginiz promptun kalitesiyle alakali. Google a soru sorar gibi dumduz prompt yazarsan, claude opus, gpt-4 gibi aga baba modeller anlamli sonuclar dondurebiliyor ama gpt-3.5  claude sonet, haiku, ayarindaki acik modeller llama3-8b, phi-3, mistral-- tamamen husran. acik kaynak olmayanlarda bu durumda net husran. prompt engineering kafasina girmeden opensource modellerle ugrasinca bunun olayi neymis neden bu bu kadar hype oldu diye insan dovunuyor. Ama chain of thoughts, tree of thoughts gibi prompting teknikleri kullanarak bunlardan ise yarar ele avuca gelir sonuclar elde edilebiliyor.

 

local llmleri vscode a entegre edip github copilot gibi kullanabiliyorsun. continue.dev gibi ollamayla yada lm studio ya falan localde calisan modelini alip vscode icinde kullabilirsin.

 

Butun bunlarin avantaji internete bagimli olmadan son model llmleri evinin guvenliginde verini kimseyle paylasmadan kullanabilme ozgurlugu. 

supermaven diye bir completion modeli var. vscode da calisiyor. bugun twitter birisi configde ignore ettigi api secretlerinin oldugu dosyanin alayinin farki dosyalarda autocomplete oldugundan bahsediyordu... sende autocomplete olan internete bagli bu modellerden her yere autocomplete oluyor. bayaa tertemiz guvenlik zaafiyeti. github copilottun ilk donemlerinde boyle openai keyleri autocomplete ettirip kullanilabiliyordu. sirf bunun icin microsoft azure uzerinde sadece sirketlere ozel remote ama sirketine ozel alanlarda openai modellerini sunuyor. tabi dumduz apiden bayaa pahali. sen sirketin tum excel word dosyalarini databaseini, codelarini catir catir herkese servis etme diye boyle onpremiseden hallice cloud cozumler sunuyorlar. veri garantisi falanda veriyorlar. buna ragmen pek cok sirket bu gibi cloud cozumlere guvenmiyor hala. kendi sunuculari uzerinde sirket ici dosyalariyla finetune ettikleri modelleri kullaniyorlar ki ustune rag falan kullaninca gpt-4 ayarinda sonuclari almak hayal degil. su anda localllmler bayaa ilerlemis durumdalar.

prompting olayini kucumsemeyin. gpt3.5 ve dengi local llmler uzerinde  chain of thoughts, tree of thoughts, skeleton of thoughts gibi teknikler kullanarak gpt-4 ayarinda sonuclar almak mumkun. deneyiniz. 

 

Alintidaki kisim deneme yanilmayla farkli quantized seviyleri test edilerek bulunmasi gereken bir surece tekabul ediyor. her bir deneme icin gblarca model dosyasi downlad etmek lazim. amelemasyonu yogun bir ugras. lmstudio ile bu surec daha kolay. ama o dosyalar gene download edilecek. quantization arttikca model aptallasiyor. bu konuda 1-2 makale okumakta yarar var bodoslama dalmadan once. 

Alıntı

gpu uzerinde local llm 7b, 8b lik modelere kadar kullanilacaksa en az 8 gb ram tavsiye olunur(nvidia 2070, 2060 ...). mac mini/macbook pro olacaksa m1<m2<m3 ve min 16 gb ram tavsiye olunur. 48 64 128 gibi seceneklerde olabiliyorsa ufff. 8 gb gpu yada 16 gb mac erisiminde 7-8b lik modeller akici calisir ama mixtral gibi mixture of experts modeller o ramlerde calismaz. onlar icin 64+ ram lazim ki 64 bile orada yetersiz kaliyordu sanki. mixture of experts modeller agent mantigindan en az 2 tane modeli calstiriyorlar. mesela gpt-4un 8x222b model oldugu soylentisi var ama bu sadece bit soylenti.

 

groq apiye basvuruluyordu galiba. benimde ona erisimim var hesap acan herkese vermiyor olabilirler. groq api openai api dengi olarak kullanilabilir. isik hizinda mukemmel bir api provider.

 

soyle guzel bir site var. https://artificialanalysis.ai/ bu api proverderlarin alayini benchmark ediyorlar burada,

https://openrouter.ai/docs#models burada guzel apiyle kullanmalik modeller oluyor. ama biraz throttle. beles oldugu icin herkes abaniyor modellere. 

https://studiolab.sagemaker.aws/ google collab, kaggle falan beles nvidia t4 veriyor. makinam llm kaldirmaz ama soyle bi kapidan bakip cikicam diyenler icin gideri var. nvidia t4ler 16 gb ramli. biraz eskiler ama hala tas gibi calisiyolar. bu da fena degil bu arada : https://lightning.ai/pricing

 

bu arada supermaven fena bir completion model degil. denemekte yarar var.instruction yada conversation ozellikleri yok ama completion da geri kalmiyor.yalniz bu scret management olayina ekstra dikkat etmek lazim modeli local calistirmiyorsaniz.

son olarak whiterabbitneo(https://huggingface.co/WhiteRabbitNeo/WhiteRabbitNeo-7B-v1.5a) gibi ozellesmis modellerde var. codellama, deepseek gibi sadece programlama ozelinde train edilmis modellerde var. 

sununla bitireyim: hangi model daha iyi hangisi download etmeye degere karar vermek icin:  https://evalplus.github.io/leaderboard.html

 

 

  • Tesekkurler 1
Link to comment
Sosyal ağlarda paylaş

×
×
  • Yeni Oluştur...