Ollama ve benzeri şeyler

Bone · Nisan 24, 2024

Ollama ile Chat GPT tarzı bir aracı ve offline olarak kullanabiliyormuşuz.

Bunu kullanan, deneyimi, bilgisi olan var mı?

Merak ettiğim bazı şeyler var, mesela Chat GPT yerine Ollama kurup kullanmanın bize ne gibi avantajı var?

Python ile kodlarda neyi ne kadar modifiye edebiliyoruz ve modifiye etmemizin bize faydası oluyor mu?

Ayrıca agentlar üstünden specialist yaratmanın bize pratikte ne avantajı oluyor? Yani mesela bir car salesman, bir de car repairman yarattık diyelim. Bu ikisine soracağımız soruların cevapları aynı kaynaklardan, aynı database'den gelmeyecek mi? Farklı farklı agentlar yaratmanın pratikte hissedilir etkisi oluyor mu?

GERGE · Nisan 25, 2024

Öncelikle Ollama bu işi yapabileceğin en kötü yazılımlardan. Kökeni Mac ve Mac kafasıyla yapılmış, basit ve kontrol nispeten kısıtlı.

Kullanabileceğin farklı şeyler var. Oobabooga ya da KoboldCCP kullan derim.

Ara yün olarak da bir sürü şey var kullanabileceğin. Benim kullandığım LibreChat. Local model olarak şu anda Llama 3 8b ve Mixtral 8x7b yüklü şu anda sistemde. Ama neredeyse hiç kullanmıyorum bunları. Anthropic'den Claude Sonnet kullanıyorum genelde gerektiğinde API ile. Opus açtığım da oluyor sorunun önermine göre. Çeviri için Gemini 1.5 Pro kullanıyorum. Gemini de API üzerinden. Toplam Claude kullanımın ayda $5-$10 arası oluyor, çok değil.

Bu aralar Llama 3 70b deniyorum ama bilgisayarda çok yavaş çalışıyor, Groq API'si üzerinden ücretsiz erişimim var ama, oradan bakıyorum. Quantize edilerek küçültülebiliyorlar ama aptallaşıyorlar o zaman da. 8 bit altında güvenilir değil, o bile bazen tam FP16 modelin yapmadığı hataları yapıyor. Llama 3 70b ancak 4 bit olunca yeterli hızda, ama ona da tam güvenmem işte.

API daha iyi her şekilde, pahalı da değil.

D&D için de yoğun kullanıyorum, Bestiary doldurmak vb. şeylerde faydalı. Ama genel olarak local modeller bir yere kadar, ChatGPT ile (GTP 3,5 olan) aynı performansa sahipler. Neredeyse Llama 3 8b bile ChatGPT'den ya da Mixtral 8x7b'den daha kaliteli cevaplar veriyor.

Sonuç olarak, yerel kullanmak eğer özel olarak kullanmak için bir nedenin yoksa gereksiz. Çalıştırmak için 3090 ya da 4090 lazım (FP16 Llama 3 8b 18GB VRAM istiyor) ve sonuçlar API kullanımı ile alabileceğinden daha kötü.

Epey kalitesi ve ücretsiz API'ler var. Cohere Command R+, Llama 3 70b, Gemini 1.5 Pro ücretsiz kapsamlı kullanılabiliyor. Claude ve GPT 4 Turbo modelleri de aylık kullamın bir akşam yemeği fiyatına gelecek kadar ucuz.

Diyeceğim budur ki; eğer LLM kullanmak istiyorsan LibreChat kullan etkileşime girmek için, modelleri çalıştırmak için de Oobabooga ile başla. Daha özelleştirilmiş programlar için TabbyAPI ya da KoboldCCP kullanabilirsin.

pulkas · Nisan 25, 2024

Gerge bi tik zorundan girdi olaya.

Local llmler internetten bagimsiz kendi kaynakarinla calistirabildigin modeller oluyorlar. Degisik arayuzlerle calitirabiliyorsun bunlari. Ollama config etmek biraz zor. Config eski usul dosya editleyerek yapiyorsun.

Onun yerine gergenin bahsettigi gene acik kaynak kodlu arayuzlu uygulamalar kullanilabiliyor.

Yakin zamanda 8 gb ekran kartina sigabilecek kaliteli llmler dusmeye basladi ortaliga. Bunlar biraz zorlanirsa GPT-4 ayarinda sonuclar verebiliyorlar. Bu tamamen yazacaginiz promptun kalitesiyle alakali. Google a soru sorar gibi dumduz prompt yazarsan, claude opus, gpt-4 gibi aga baba modeller anlamli sonuclar dondurebiliyor ama gpt-3.5 claude sonet, haiku, ayarindaki acik modeller llama3-8b, phi-3, mistral-- tamamen husran. acik kaynak olmayanlarda bu durumda net husran. prompt engineering kafasina girmeden opensource modellerle ugrasinca bunun olayi neymis neden bu bu kadar hype oldu diye insan dovunuyor. Ama chain of thoughts, tree of thoughts gibi prompting teknikleri kullanarak bunlardan ise yarar ele avuca gelir sonuclar elde edilebiliyor.

local llmleri vscode a entegre edip github copilot gibi kullanabiliyorsun. continue.dev gibi ollamayla yada lm studio ya falan localde calisan modelini alip vscode icinde kullabilirsin.

Butun bunlarin avantaji internete bagimli olmadan son model llmleri evinin guvenliginde verini kimseyle paylasmadan kullanabilme ozgurlugu.

supermaven diye bir completion modeli var. vscode da calisiyor. bugun twitter birisi configde ignore ettigi api secretlerinin oldugu dosyanin alayinin farki dosyalarda autocomplete oldugundan bahsediyordu... sende autocomplete olan internete bagli bu modellerden her yere autocomplete oluyor. bayaa tertemiz guvenlik zaafiyeti. github copilottun ilk donemlerinde boyle openai keyleri autocomplete ettirip kullanilabiliyordu. sirf bunun icin microsoft azure uzerinde sadece sirketlere ozel remote ama sirketine ozel alanlarda openai modellerini sunuyor. tabi dumduz apiden bayaa pahali. sen sirketin tum excel word dosyalarini databaseini, codelarini catir catir herkese servis etme diye boyle onpremiseden hallice cloud cozumler sunuyorlar. veri garantisi falanda veriyorlar. buna ragmen pek cok sirket bu gibi cloud cozumlere guvenmiyor hala. kendi sunuculari uzerinde sirket ici dosyalariyla finetune ettikleri modelleri kullaniyorlar ki ustune rag falan kullaninca gpt-4 ayarinda sonuclari almak hayal degil. su anda localllmler bayaa ilerlemis durumdalar.

prompting olayini kucumsemeyin. gpt3.5 ve dengi local llmler uzerinde chain of thoughts, tree of thoughts, skeleton of thoughts gibi teknikler kullanarak gpt-4 ayarinda sonuclar almak mumkun. deneyiniz.

Alintidaki kisim deneme yanilmayla farkli quantized seviyleri test edilerek bulunmasi gereken bir surece tekabul ediyor. her bir deneme icin gblarca model dosyasi downlad etmek lazim. amelemasyonu yogun bir ugras. lmstudio ile bu surec daha kolay. ama o dosyalar gene download edilecek. quantization arttikca model aptallasiyor. bu konuda 1-2 makale okumakta yarar var bodoslama dalmadan once.

Alıntı

gpu uzerinde local llm 7b, 8b lik modelere kadar kullanilacaksa en az 8 gb ram tavsiye olunur(nvidia 2070, 2060 ...). mac mini/macbook pro olacaksa m1<m2<m3 ve min 16 gb ram tavsiye olunur. 48 64 128 gibi seceneklerde olabiliyorsa ufff. 8 gb gpu yada 16 gb mac erisiminde 7-8b lik modeller akici calisir ama mixtral gibi mixture of experts modeller o ramlerde calismaz. onlar icin 64+ ram lazim ki 64 bile orada yetersiz kaliyordu sanki. mixture of experts modeller agent mantigindan en az 2 tane modeli calstiriyorlar. mesela gpt-4un 8x222b model oldugu soylentisi var ama bu sadece bit soylenti.

groq apiye basvuruluyordu galiba. benimde ona erisimim var hesap acan herkese vermiyor olabilirler. groq api openai api dengi olarak kullanilabilir. isik hizinda mukemmel bir api provider.

soyle guzel bir site var. https://artificialanalysis.ai/ bu api proverderlarin alayini benchmark ediyorlar burada,

https://openrouter.ai/docs#models burada guzel apiyle kullanmalik modeller oluyor. ama biraz throttle. beles oldugu icin herkes abaniyor modellere.

https://studiolab.sagemaker.aws/ google collab, kaggle falan beles nvidia t4 veriyor. makinam llm kaldirmaz ama soyle bi kapidan bakip cikicam diyenler icin gideri var. nvidia t4ler 16 gb ramli. biraz eskiler ama hala tas gibi calisiyolar. bu da fena degil bu arada : https://lightning.ai/pricing

bu arada supermaven fena bir completion model degil. denemekte yarar var.instruction yada conversation ozellikleri yok ama completion da geri kalmiyor.yalniz bu scret management olayina ekstra dikkat etmek lazim modeli local calistirmiyorsaniz.

son olarak whiterabbitneo(https://huggingface.co/WhiteRabbitNeo/WhiteRabbitNeo-7B-v1.5a) gibi ozellesmis modellerde var. codellama, deepseek gibi sadece programlama ozelinde train edilmis modellerde var.

sununla bitireyim: hangi model daha iyi hangisi download etmeye degere karar vermek icin: https://evalplus.github.io/leaderboard.html

Bone · Haziran 28, 2024

@GERGE ve @pulkas yakın zamanda yeni versiyonlar çıkmışken burada da güncelleme yapmış olayım.

1- Yazdıklarınızdan doğru mu anlamışım? önce Oobabooga ya da KoboldCCP kuracağım, sonrasında da bir LLM seçip onu kuracağım ve böyle çalışacaklar, değil mi?

2- Oobabooga ve Koboldcpp nedir diye bakınırken, Oobabooga back end imiş, front end için Sillytavern yüklemek gerekiyormuş, Koboldcpp ikisinin de özelliklerine sahip hybrid bir çözümmüş diye bahsedildiğni gördüm. Ayrı ayrı iki şeyle uğraşmak yerine direk Koboldcpp kullanmak bana bir şey kaybettirir mi?

3- Ollama'nın ekran görüntülerine baktığımda ChatGPT'nin arabirimine çok benzediğini gördüm, ama Oobabooga ve Koboldcpp ekran görüntülerine baktığımda ondan daha farklılar ve mesajlaşma uygulaması penceresi gibi gözüküyorlar. Bunu değiştirip ChatGPT'ye benzetmek için LibreChat mi kurmamız gerekiyor?

4- https://artificialanalysis.ai/ linkini vermiştiniz, buradaki tablolarda yetenek alanında en iyilerinin GPT-4o > Claude 3.5 Sonnet > Gemini 1.5 Pro > Llama 3 (70B) > Mixtral 8x22B olduğunu göstermişler. Sonnet ve 4o başabaş ise, ve ChatGPT aboneliğimiz varsa, diğer LLM'lere para verip kullanmanın bir anlamı var mı?

5- Llama 3 ve Mixtral'ın Open License'i varmış, diğer saydıklarım Proprietary License'miş. Bu lisans mevzusunun kullanımda ne gibi bir etkisi oluyor?

6- ChatGPT'de 3.5, 4.0, 4o versiyonlarını kullanarak aynı işlemi yaptırabiliyoruz. Her ne kadar 4o, diğerlerinden daha kapsamlı ve becerikli dense de, bazen eski versiyonlar sorulan soruyu daha iyi algılayıp daha işe yarar cevaplar verebiliyor. O yüzden 3 versiyonu da ayrı ayrı kullanıp verdiği cevapları kıyaslayarak kullanmaya çalışıyorum. Sonuçların böyle değişik çıkması sadece tesadüf mü? Quality Index'i daha yüksek LLM her zaman daha efektif midir?

Nosfe · Haziran 28, 2024

Burdan https://lmstudio.ai/ LmStudio indiriyosun, programin icindan LLama3-8b aratip yukluyorsun oldu bitti.

GERGE · Haziran 28, 2024

1. Durum o kadar basit değil. Oobabooga çok genel bir yazılım. Her şeyi veriyor, başlamak için iyi. Ama verdiklerinin hiç biri en iyi değil. Duruma göre seçmen lazım. Ben modeli küçültmeden kullanıyorsam (quantization olayı) genelde TabbyAPI kullanıyorum, eğer GGUF formatında kullanacaksam Koboldcpp kullanıyorum.

2-3. Oobabooga hem backend hem front end sunuyor. Koboldcpp de öyle. Ama ikisi de iyi bir front-end değil. Önerebileceğim dört tane front-end var:

https://www.librechat.ai/ - Ben kullanıyorum bunu yoğun olarak.
https://github.com/huggingface/chat-ui - Bu İnternetten arama yapmak için en iyisi, onun dışında ama daha iyileri var. İnternetten arama için kullanıyorum. Ama bunun için farklı şeyler lazımi embedding için bir model, bir arama API'si ya da SearXNG.
http://openwebui.com/ - LibreChat'in ana rakibi bu, kullandığımda beğenmedim ama. Ollama arayüzü dediğin bu.
https://sillytavern.app/ - Bu RP için.

LM Studio gibi, Jan.ai gibi frontendleri önermiyorum. Bunlar iyi. All-in-one çözümleri de önermiyorum.

4. ChatGPT aboneliğine zaten gerek yok, API ile ve yukarıdaki frontendler ile işini görürsün. Ben temel olarak üç farklı API'ye ödeme yapıyorum, zaten kullandıkça öde şeklinde çalıştıklarından sorun olmuyor, aylık abonelik değil:

Anthropic'e ödüyorum. En çok kullandığım bu, Sonnet iyi, 3.0 olan da iyiydi. En son $30 attım buna, aylarca yetecektir bana.
OpenAI için ödüyorum. GPT-4o işte bu aralar kullandığım.
Birde Voyage için ödüyorum, bu normal AI değil, embedding yapıyor.

Farklı model dersen, her modelin farklı bir tarzı var. Ama gerek yok. Google Gemini Pro 1.5 mesela çok iyi ama, günde 50 kullanım da ücretsiz, mesela o da LibreChat'te yüklü benim, kullanıyorum. LibreChat de Rapsberry Pi'da yüklü, dışarıdan da telefonla ulaşabiliyorum. Google'ın yeni Gemma 2 27b modeli ama hem yerel olarak çalıştırılabilir hem de kaliteli gibi. Ama 5 bit ya da 6 bit yapmak gerekir 24GB VRAM ile bile. O şekilde nasıl performansılı olur bilmiyorum. API ucuz ve daha iyi yani.

LibreChat kurup bir API bağlamak en iyisi. Yerel kullanmak için bir nedenin yoksa kullanma. Varsa da VRAM miktarına göre seç bir tane. Meta Llama 3 8b iyidir başlamak için.

Local çalıştırdığım da var ama yukarıdakiler gibi performanslı olmadığından pek tercihim değil. Gelişmeler var ama. Kabul edilen benchmark yeri burası ama: https://chat.lmsys.org/ OpenAI'da, Anthropic'de, Google da modellerini burada test ediyor hatta çıkarmadan önce.

5. Açık ise işte indirip kendin de çalıştırabiliyorsun, yoksa sadece API.

6. Daha kaliteli olan %99.9 daha iyi cevap verir, evet. ChatGPT 3.5 artık epey epey kötü Llama 3 8b bile geçti onu. Kullanmaya gerek yok. GPT 4 ve GPT-4o çok benzer.

Peki bunları nerede kullanıyorsun derseniz, şu anda aklıma gelenler:

D&D, güzel bestiary yapıyor, eşya yaratıyor.
Çeviri
Kodlama ve sunucu yönetimi yardımı. Basit scriptler mesela. Docker kullanmayı da tamamen Sonnet ile öğrendim. Geçen gün Scoop ile bir cmd tool yüklemek ama komut adını değiştirmek istedim, Scoop yardımını kurcalayacağıma Sonnet'e sordum mesela.
Arada sohbet. Sonnet bu konuda GPT-4o'dan daha iyi geliyor bana.
Internette arama yapma. ChatUI kullanıyorum bunda ve cidden çok kullanışlı. En son mesela Elsbeth diye bir dizi izleyip ilk sezonunu bitirdim. İkinci sezonu hakkında bilgileri toplayıp vermesini istedim (daha çıkmadı sezon), epey detaylı şekilde toplayıp kaynaklarıyla birlikte sundu hepsini. Stajyer gibi ama gerçek stajyerlerin aksine verilen işi yapıyor.
Genel sorular. Wikipedia niyetine kullanılabiliyor ama detay sorma, açıklama isteme vb. öğrenmek istediğin şeyi öğrenebiliyorsun. Temperature kısman gerek ama bilgi alırken.

Yani kullanışlı bir şey, devrimsel bir şey hatta. Kurcalayıp, size en uygun yolu bulup kullanın derim. Bu yukarıda yazdıklarımı ama yerel modellerle yapamam, onlar fazla basit kaçıyorlar. Parasını verip kullanmaya değiyor ama.

GERGE · Haziran 28, 2024

Ücretsiz API olarak Groq var, Llama 3 70b veriyor. Bir de Gemini var, Flash ücretsiz gibi, Pro da günde 50 mesaj.

Ücretsiz API olarak bunları kullanabilirsin.

reyou · Haziran 28, 2024

Llama 3'nin API'i yok mu ya? REST api yani.

gemini'nin free tier cok iyi, ama image uretmiyor malesef. GTP'nin image generation'i biraz tuzlu.

Bildiginiz Free tier veren, fiyati uygun, kaliteli resim ureten API'lar var mi?

GERGE · Haziran 28, 2024

Llama 3 70b için bu var işte: https://console.groq.com/docs/quickstart

Image için bu aralar bunu kurcalıyorum, ama yerel olarak: https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS

pulkas · Temmuz 6, 2024

Bir de deepseek coder v2, claude sonnet 3.5 ayarinda. claude sonnet kullanmak isteyenler icin supermaven simdilik ayda 10 dolara sinirsiz sonnet 3.5 erisimi veriyor. sanirim sourcegraph codyde de boyle bir olay olabilir. cursor.so ai ide de 20 dolara 500 hizli cevap aliyosun beynelminel modellerden. sonra yavasliyor ve kullanmaya devam ediyorsun.

deepseek kendi sitesinden kullanilabilir. api olarak diger apiler gibi para yukleyip bakiyeden yemek lazim.

su anda programlama icin siralama soyle.

Claude sonnet 3.5 >~= deepseek coder v2 > gpt 4o > ...

gemini pro 1.5 ugu nere koyacagimi bilemedim acikcasi.

https://github.com/deepseek-ai/DeepSeek-Coder-V2

bu aralar programlama isleri bayaa agentic behavior a emanet hale gelmeye basladi. bu isin aga babasi : https://aider.chat/

tum liste: https://github.com/e2b-dev/awesome-ai-agents

asagida da tertemiz bir calisma var.

her guzel seyin bir maliyeti var.

pulkas · Haziran 18, 2025

Guncelleyelim;

200 $ lik Claude Code kullanmayani sopayla dovuyorlar. Ayni ayarda cursor 200$lik plan cikardi o da fena degilden hallice.

Web tabanli git agentlardan Jules is yaptirmasi zor kategoride kaldi.

codex, 20$lik planda sinirsiz gibi kullanilabiliyor. Denemeyenler bakmali.

ADD(agent driven development) yaparken en onemli sey plan yapmak. plansiz programsiz ileniyorsa spagetti koddan hallice ucu basi belirsiz seyler cikiyor ortaya.

Bone · Haziran 19, 2025

aylık 200 dolar mı?

pulkas · Haziran 21, 2025

evet 200$ ve 200$in hakkini sonuna kadar veriyor.
`sen istiyor duj. verecek 200$`

minimaxin agenti bayaaa iyi. 1000 kredi ucretsiz veriyor. fakat sonuclar mukemmel : https://agent.minimax.io/ buna para harcayip para edecek isler yapmak mumkun gibi. model open source. kredileri cok hizli bitiyor. ilk verdigi 1000 kredi cart curt derken bitmis oluyor. tek falsosu bu. manustan ve gensparktan daha iyi gibi bir izlenim verdi bana.

bir ara usenmezsem asagidakiler hakkinda yazayim istiyorum. modellerin herbiri o3, sonnet-4, gemini-2,5-pro klasmaninda. minimax m1 80k diye model var. vay ki ne vay. bir yapay zeka ambargosu falan olursa bir gun bunlari indirip bunlari calistiracak donanimlara erisim hazirliklari yapmakta yarar var.

(2 x NVIDIA H100 80 GB veya 4 x A100 40 GB, toplamda 160 GB VRAM gibi seyler lazim.)

https://yiyan.baidu.com/

https://console.bce.baidu.com/miaoda/

https://www.doubao.com/chat/

https://chat.minimax.io/

https://www.kimi.com/

(aklima gelmeyen 1-2 model daha olabilir. cok bilindikleri yazmadim qwen, deepseek falan...)

Haziran 21, 2025 pulkas tarafından düzenlendi

razzRaziel · Haziran 21, 2025

yazılımcı masraflarınızı düşürüyoruz diye bi 2000$'lık paket de çıkar heralde 1 seneye.

20'liği 17'ye düşürmüşlerdi tekrar 20 yapmışlar. sürekli kıçları başları oynuyor.

AI piyasası çok karambol.

GERGE · Haziran 23, 2025

o3 kullanıyorum ben bu aralar en çok. Çeviri için hala Sonnet 4 ama araştırma, soru sorma vb. için o3 en iyisi. ChatGPT üzerinden kullanıyorum, arama yapma özelliği de iyi.

Giriş

Ollama ve benzeri şeyler

Öne çıkan mesajlar

Bone

GERGE

pulkas

Bone

Nosfe

GERGE

GERGE

reyou

GERGE

pulkas

pulkas

Bone

pulkas

razzRaziel

GERGE