Best Practices für LLAMA.Cpp |
On-Premise AI

Wie kann man LLAMA.Cpp On-Premise betreiben?

Alternative zu chatGPT & Co

Was ist llama.cpp?

llama.cpp ist eine Open-Source-Softwarebibliothek, die größtenteils in C++ geschrieben ist und Inferenzen auf verschiedenen Large Language Models wie Llama durchführt. Ein CLI und ein Webserver sind in der Bibliothek enthalten. llama.cpp wurde zusammen mit dem GGML-Projekt entwickelt, einer allgemeinen Tensor-Bibliothek.

Was ist Phi-3-Modell?

Das Modell Phi3 verwendet eine Kombination aus quantitativen und qualitativen Methoden, um eine umfassende Risikobewertung zu ermöglichen. Dabei werden sowohl finanzielle als auch nicht-finanzielle Aspekte berücksichtigt.

Phi-3-small Success

Phi-3-small: 7B Parameters Outperform GPT-3.5T

The Phi-3-small model, with only 7B parameters, has demonstrated superior performance over GPT-3.5T across various language, reasoning, coding, and...

Phi-3-small achieves superiority.

Über das Modell

GGUF-Format für das Phi-3-Mini-4K-Instruct

Parameter

3,8 Millionen Parameter wurde mit Phi-3-Datensätzen trainiert. Enthällt sowohl synthetische als auch gefilterte, öffentlich verfügbare Webseitendaten. Schwerpunkt liegt auf quantitiv hochwertigen und argumentativ dichten Eigenschaften.

Varianten

Es gibt zwei Varianten, einmal 4K und 128k, die die Kontextlänge (in Token), die es unterstützen kann. Wir setzen das 4K Modell ein.
Das Modell wurde einem Nachtrainingsverfahren unterzogen, das sowohl eine überwahte Feinabstimmung als auch eine direkte Präferenzoptimierung umfasst.

Kompakt

Bei der Bewertung anhand von Benchmarks, bei denen gesunder Menschenverstand, Sprachverständnis, Mathematik, Code, langer Kontext und logisches Denken getestet wurden, zeigte Phi-3 Mini-4K-Instruct eine robuste und hochmoderne Leistung unter Modellen mit weniger als 13 Milliarden Parametern.

llama.cpp

CPU-Ausführung

llama.cpp wurde entwickelt, um große Sprachmodelle effizient auf CPUs auszuführen, ohne GPUs zu benötigen.

Portierbares Framework

Das macht es zu einer leichten und portierbaren Alternative zu Frameworks, die GPUs erfordern.

Speicherreduktion

Es verwendet Quantisierung, um Speicheranforderungen und Rechenleistung zu reduzieren.

Inferenzoptimierung

Gewichte des Modells werden in weniger präzise Datenformate umgewandelt.

Vergleich: llama.cpp (On-Premise) vs. ChatGPT (cloud)

Volle Kontrolle

llama.cpp bietet volleKontrolle und höhere Datensicherheit. Die einmaligen Kosten machen es anpassbar und offline nutzbar, aber es erfordert hohe Hardwareanforderungen und manuelle Updates.

Höhere Datensicherheit

Im Vergleich dazu benötigt ChatGPT keine Hardware, ist einfach skalierbar und bietet automatische Updates. Es ist leistungsstark und sofort verfügbar, hat jedoch Datenschutzrisiken und laufende Kosten.

Einmalige Kosten

Insgesamt ist llama.cpp ideal für Datenschutz und Kontrolle, während ChatGPT praktisch und leicht zugänglich ist, aber datenabhängig und kostenintensiv. Jedes hat seine eigenen Vor- und Nachteile.

llama.cpp bietet volle Kontrolle und höhere Datensicherheit

Effiziente Aufgabenlösung mit On-Premise-Technologie

Optimale Lösungsstrategie: On-Premise oder ChatGPT-Cloud

Unsere Aufgabe wird durch die Nutzung einer On-Premise-Lösung und der ChatGPT-Cloud gelöst. Diese Kombination ermöglicht eine effiziente und maßgeschneiderte Lösung für unsere Anforderungen.

Ziel

Wir möchten demonstrieren, wie man mit llama.cpp eine Känguru Mathematik Aufgabe 11-13 Klasse lösen kann.

Mission

Wir haben dazu einen Docker-Container auf On-Premise Basis aufgebaut. Wir zeigen hier, wie man eine Infrastruktur aufbauen kann.

Aufgabe aus Känguru - Mathematik 11-13

Die Mathematik-Aufgabe aus Känguru 2024 ist für die Klassenstufen 11 bis 13 konzipiert und bietet anspruchsvolle Herausforderungen für Schülerinnen und Schüler in diesen Jahrgangsstufen.

Aufgabe

Mattis hat eine Pizza in sechs gleich große Stücke geschnitten. Nachdem er ein Stück gegessen hat, ordnet er die restlichen Stücke so an, dass die Lücken zwischen benachbarten Stücken alle gleich groß sind. Wie groß ist jeweils der Winkel, den zwei benachbarte Stücke einschließen?

Datensicherheit maximieren

Container-Isolation nutzen

Mit der steigenden Nachfrage nach leistungsfähigen Sprachmodellen suchen viele Unternehmen nach Möglichkeiten, diese sicher und effizient on-premise zu betreiben. llama.cpp bietet eine Open-Source-Lösung für die Ausführung von großen Sprachmodellen auf eigener Hardware. In diesem Artikel erfahren Sie, wie Sie llama.cpp unter Docker betreiben können, um maximale Datensicherheit zu gewährleisten, und welche Alternativen es gibt.

docker-compose.yml

## docker-compose file for llama.cpp version: '2.3'
services:

llama-cpp:
container_name: llama-cpp

build:
context: https://github.com/ggerganov/llama.cpp.git#b3246

dockerfile: .devops/llama-server.Dockerfile
command: -m /models/Phi-3-mini-4k-instruct-gguf/Phi-3-mini-4k-instruct-q4.gguf --port 8080 --host 0.0.0.0 -n 512 --path /www
restart: unless-stopped
read_only: true
mem_limit: 16g
environment:

## Nginx Proxy
- VIRTUAL_HOST=ai-api.myserver.de
- VIRTUAL_PORT=8080
- LETSENCRYPT_HOST=ai-api.myserver.de
- LETSENCRYPT_EMAIL=myname@gmail.com
- LETSENCRYPT_SINGLE_DOMAIN_CERTS=true

volumes:
- ./llama.cpp/models:/models:ro
- ./llama.cpp/www:/www:ro

expose:
- 8080

networks:
net_back:

healthcheck:
test: exit 0
interval: 60s
retries: 5
start_period: 20s
timeout: 10s

docker-compose.yml zum runterladen

Vorbereitung der Serverinstallation

Vorbereitung der Installation von llama.cpp: Stellen Sie sicher, dass Ihr Server die Mindestanforderungen erfüllt und installieren Sie die benötigten Abhängigkeiten und Compiler.

Kapazitätsplanung Cloudbasierte Lösungen

Implementierung der Prozessautomatisierung
Datengesteuerte Erkenntnisse

CPU-Architektur: x86_64 oder ARM

Die Hardware-Infrastruktur erfordert eine CPU-Architektur von x86_64 oder ARM mit AVX2-Unterstützung für bessere Leistung. Es werden mindestens 4 Kerne empfohlen, 8 oder mehr für eine verbesserte Leistung.

Der Arbeitsspeicher sollte mindestens 8GB RAM betragen, idealerweise 16GB oder mehr. Es wird empfohlen, dass der RAM mindestens doppelt so groß ist wie das zu ladende Modell.

Für eine optimale Leistung ist eine NVIDIA-GPU mit CUDA-Unterstützung erforderlich. Die GPU sollte mindestens 8GB VRAM für größere Modelle und eine neuere RTX 20xx oder höher aufweisen.

llama.Cpp Demonstration

Innovative Beispiele direkt ausprobiert

Innovative llama.Cpp Modell aufzeigen

On-Premise llama.Cpp Aufsetzung

Phi-3-mini-4k-instruct-q4.gguf

Optimiert für Instruktions-Prompts
Unterstützung von bis zu 4000 Token Kontext

Anwendungsbereiche

Längere Konversationen
Detaillierte Textverarbeitung
Fortgeschrittene Chatbot-Interaktionen

Ohne GPU Power

Hier sind die CPU-Anforderungen für On-Premise-Lösungen ohne GPU-Unterstützung. Diese Informationen basieren auf den zuvor erwähnten Modellen („phi-2.Q8_0.gguf“, „phi-2.Q5_K_M.gguf“, „Phi-3-mini-4k-instruct-q4.gguf“) und berücksichtigen die Tatsache, dass keine GPU-Leistung verfügbar ist. Die Ausführung von KI-Modellen ausschließlich auf der CPU erfordert leistungsfähigere Prozessoren, um eine akzeptable Performance zu gewährleisten.

Zusammenfassung

Die Wahl des richtigen Modells hängt von Ihren spezifischen Anforderungen und der verfügbaren Hardware ab:

phi-2.Q8_0.gguf bietet eine solide Leistung für allgemeine Anwendungen.
phi-2.Q5_K_M.gguf ist ideal, wenn Speicher und Effizienz eine größere Rolle spielen.
Phi-3-mini-4k-instruct-q4.gguf eignet sich hervorragend für komplexere Aufgaben, die längere Kontextfenster und detaillierte Anweisungen erfordern.

Link vom Modell, proejkt seite
update

Fragen

Was ist LLAMA.cpp?

LLAMA.cpp ist eine effiziente C++-Implementation des LLAMA Sprachmodells von Meta. Es ermöglicht das Betreiben von KI-Sprachmodellen auf eigener Hardware, ohne Cloud-Abhängigkeit.

Warum sollte ich LLAMA.cpp statt ChatGPT verwenden?