Finde Dein Tool in 6 Steps
Result: 17

Archiv: KI-Tools

KIFOX - Das Suchportal für KI-Anwendungen ?

KIFOX ist ein Portal für KI-Tools und LLM's.

Hier dürfen Nutzer sich einen Überblick verschaffen, welche KI-Tools bzw. LLM's es derzeit auf dem Markt gibt. Jeder Nutzer darf frei eine Bewertung abgeben sowie seine Erfahrung zu KI-Anwendung teilen und kann über einen weiterführenden Link direkt zum Anbieter wechseln.

KIFOX ist kein Onlineshop, sondern ein Vergleichs- und Informationsportal für KI-Anwendungen.

Ergebnisse: 17
Anbieterlogin

„co-create intelligence with everyone“

MiniMax ist ein multimodaler Foundation-Model-Anbieter mit Modellen für Text, Coding, Agenten, Sprache, Video, Musik, Bild und multimodale Anwendungen. Zu den Produkten gehören MiniMax Agent, Hailuo AI, MiniMax Audio, Talkie und eine Open Platform für Entwickler und Unternehmen.
MiniMax

LLM „co-create intelligence with everyone“

5,9/10 KIFOX Score – Eingeschränkt
Abo Token Plan – Starter Subscription-Zugang für Entwickler mit Zugriff auf MiniMax-Modelle über Token-Plan-API-Key; Textmodelle mit 5-Stunden-Rolling-Window, je nach Plan begrenzte multimodale Kontingente.

Token Plan – Plus Erweiterter Token Plan mit höherem M2.7-Kontingent und zusätzlichen multimodalen Tageskontingenten für Speech, Image und weitere Modelle.

Token Plan – Max Höherer Standard-Token-Plan mit größerem Request-Kontingent und erweiterten Tageskontingenten für multimodale Modelle.

Plus-Highspeed / Max-Highspeed / Ultra-Highspeed High-Speed-Token-Pläne mit Zugriff auf schnellere M2.7-/M2.5-Highspeed-Modelle und erweiterten Kontingenten für codingnahe Workflows.
Sonstiges Pay-as-you-go API Standard-Open-Platform-API-Key für nutzungsbasierte Abrechnung nach tatsächlichem Verbrauch; unterstützt Text, Video, Speech, Image und weitere Modalitäten.

Audio Subscription / Video Packages Separate Pakete für Speech- und Videoerzeugung mit produktbezogenen Kontingenten und Abrechnungslogik.

Local / Private Deployment Offene M2-Modellgewichte können über Hugging Face und Frameworks wie SGLang, vLLM, Transformers, ModelScope oder NVIDIA NIM lokal bzw. privat betrieben werden.
(0)

Link

Build with the latest DeepSeek models

DeepSeek bietet über seine API aktuell zwei LLM-Zugänge an: deepseek-chat und deepseek-reasoner. Beide entsprechen laut offizieller Doku derzeit DeepSeek-V3.2 mit 128K Kontextfenster; deepseek-chat steht für den Non-Thinking-Modus, deepseek-reasoner für den Thinking-Modus. Die API ist OpenAI-kompatibel, unterstützt u. a. JSON Output, Tool Calls, Chat Prefix Completion und bei deepseek-chat zusätzlich FIM Completion.
DeepSeek API

LLM "Build with the latest DeepSeek models"

4,3/10 KIFOX Score – Eingeschränkt
Sonstiges Tokenbasierte API-Nutzung Abrechnung nach Input-, Output- und Cache-Hit-/Cache-Miss-Tokens.

deepseek-v4-flash Schnelleres, effizienteres Modell mit Thinking- und Non-Thinking-Modus, 1M Kontext, JSON Output, Tool Calls und Chat Prefix Completion.

deepseek-v4-pro Leistungsstärkeres Modell für komplexeres Reasoning, Coding, Agenten und lange Kontexte; unterstützt ebenfalls 1M Kontext, JSON Output und Tool Calls.

OpenAI-/Anthropic-kompatible API Nutzung über OpenAI-kompatible Base URL oder Anthropic-kompatiblen Endpoint; geeignet für bestehende SDKs und Agenten-Tools.

Open Weights / Self-Hosting-Pfad DeepSeek-V4 wurde als Open-Weights-Familie veröffentlicht; Self-Hosting erfordert eigene Infrastruktur und ist separat von der offiziellen API zu betrachten.
(0)

Link

Inspiring AGI to Benefit Humanity - free AI chatbot & agent powered by GLM

Zhipu AI ist ein chinesischer Large-Language-Model-Anbieter, der international unter Z.ai auftritt. Kern ist die GLM-Modellfamilie für Text, Reasoning, Agenten, Coding, Vision, OCR, Bild-, Video- und Audiofunktionen. Die Plattform bietet API-Zugriff, Coding-Pläne, Web Search, Translation Agent und Slide/Poster Agent.
Zhipu AI / Z.ai – GLM

LLM "Inspiring AGI to Benefit Humanity - free AI chatbot & agent powered by GLM"

6,5/10 KIFOX Score – Solide
Free GLM-4.5-Flash / freie Kontingente
Z.AI beschreibt GLM-4.5-Flash als kostenlose Modellvariante für Reasoning, Coding und Agenten; zusätzlich können je nach Plattformstatus freie Testkontingente verfügbar sein.
Abo GLM Coding Plan
Persönlich gebundene Coding-Subscription für offiziell unterstützte Coding-Tools; nicht für allgemeine API-Nutzung, Weiterverkauf oder Nutzung durch Dritte vorgesehen.
Sonstiges API-Nutzung / nutzungsbasierte Abrechnung API-Zugriff auf GLM-Modelle, SDKs, OpenAI-kompatible Nutzung, Streaming, Function Calling, Structured Output, Context Caching und Tool-Nutzung; Abrechnung nutzungsabhängig je nach Modell und Plattformregeln.

Enterprise / individuelle Vereinbarungen Separate schriftliche Vereinbarungen sind möglich; keine gesicherten Informationen verfügbar zu standardisierten EU-Enterprise-Plänen oder EU-Hosting.
(0)

Link

„Seeking the optimal conversion from energy to intelligence“

Moonshot AI ist der Anbieter hinter Kimi, einer LLM- und Agentenplattform mit Fokus auf lange Kontexte, Coding, Deep Research, Dokumente, Tabellen, Slides, Websuche und multimodale Verarbeitung. Die Kimi-API bietet Modelle wie Kimi K2.6, K2.5, K2 und Moonshot-v1.
Moonshot AI

LLM „Seeking the optimal conversion from energy to intelligence“

4,5/10 KIFOX Score – Eingeschränkt
Sonstiges Pay-as-you-go API Flexible, nutzungsbasierte Abrechnung nach Input- und Output-Tokens, Modellwahl und ggf. Dokument-/Tool-Nutzung; geeignet für Entwickler und kleine Teams.

Kimi K2.6 / K2.5 / K2 / Moonshot V1 Modellfamilien für multimodale bzw. textbasierte Aufgaben, Long Context, Coding, Agenten, Reasoning und Dialogaufgaben.

Enterprise Solutions & Customization Für mittlere und große Unternehmen mit flexiblen Rate Limits, Multi-Projekt-Deployments, Support, SLA-orientierter Zuverlässigkeit und individuellen Vereinbarungen laut Plattformseite.
(0)

Link

OpenAI bietet über die API eine breite Modellpalette für Textgenerierung, Reasoning, Coding, Tool-Nutzung, strukturierte Ausgaben und dokumentennahe Workflows an.

Laut offizieller Modellübersicht unterstützen die aktuellen Modelle Text- und Bild-Input, Text-Output, Multilingualität und Vision; sie sind über die Responses API und Client-SDKs verfügbar. Für komplexe Aufgaben empfiehlt OpenAI standardmäßig gpt-5.4; für geringere Latenz und Kosten verweist OpenAI auf gpt-5.4-mini und gpt-5.4-nano
Open AI

LLM „Access our frontier models and APIs.“

7,9/10 KIFOX Score – Gut
Free Es gibt im API-Ratelimit-System einen Free-Nutzungstier für Nutzer in erlaubten Geografien Sonstiges Tokenbasierte API-Nutzung Abrechnung nach Modell, Input-/Output-Tokens, cached Input, Audio/Bild/Tool-Nutzung und weiteren nutzungsabhängigen Faktoren.

Batch / Flex / Priority / Scale Tier Optionen zur Kosten- und Latenzsteuerung für größere oder planbare Workloads.

Fine-Tuning / Evals / Tools / Agents Zusätzliche API-Funktionen für Anpassung, Evaluierung, Agenten, Websuche, File Search, Code Interpreter, Realtime und strukturierte Ausgaben.

Data Residency / ZDR / EKM Enterprise-nahe Datenkontrollen mit regionaler Speicherung/Verarbeitung, Zero Data Retention bzw. Modified Abuse Monitoring und externem Key Management.
(0)

Link

Amazon Nova ist Amazons eigene Foundation-Model-Familie für Text, Bild-/Video-Verständnis, Dokumentenanalyse, Agenten, Tool-Nutzung und Sprache.

Genutzt wird Nova über Amazon Bedrock APIs, insbesondere InvokeModel, InvokeModelWithResponseStream, Converse, ConverseStream und bei Sonic über bidirektionales Streaming.
Amazon Nova API

LLM „frontier intelligence“ - „industry-leading price-performance“

7,1/10 KIFOX Score – Gut
Free AWS zeigt „Get started for free“, aber für Amazon Nova/Bedrock ist öffentlich primär nutzungsbasierte Abrechnung dokumentiert; konkrete Free-Kontingente hängen von AWS-Angeboten, Region und Account ab. Sonstiges On-Demand / Standard Tier Nutzungsbasierte Inferenz nach Modell, Modalität und Tokens bzw. Bild-/Video-/Spezialnutzung.

Flex / Priority / Reserved Tiers Bedrock unterstützt unterschiedliche Service-Tiers zur Steuerung von Kosten, Verfügbarkeit, Latenz und Durchsatz.

Batch Inference Asynchrone Verarbeitung größerer Workloads; laut AWS für ausgewählte Modelle günstiger als On-Demand.

Provisioned Throughput Reservierte Kapazität für höheren oder planbaren Durchsatz; für bestimmte Custom- oder Produktionsszenarien erforderlich.

Fine-Tuning / Custom Models Anpassung mit eigenen Trainings-/Validierungsdaten; Nutzung individueller Modelle typischerweise über provisionierte Kapazität.

Guardrails / Knowledge Bases / Agents / Prompt Routing Zusätzliche Bedrock-Funktionen für Sicherheit, RAG, Agenten-Orchestrierung, Modellrouting und Governance.
(0)

Link

„Where knowledge begins“

Perplexity Sonar ist eine Modellfamilie für KI-Suche, webgestützte Antworten, Recherche, Reasoning und Deep Research. Die API ist besonders stark bei aktuellen Fakten, Quellenangaben, Produktvergleichen, Zusammenfassungen und Research-Workflows.
Perplexity Sonar

LLM „Where knowledge begins“

7,3/10 KIFOX Score – Gut
(0)

Link

„Truly usable and practical AI“

Tencent Hunyuan ist die KI-Modellfamilie von Tencent Cloud. Sie umfasst Textmodelle, Reasoning-Modelle, Vision, Videoverständnis, Bildgenerierung, Übersetzung, 3D-Generierung und Open-Source-Modelle. Tencent positioniert Hunyuan für Content-Erstellung, Mathematik, Code, Dialoge, Unternehmensszenarien und multimodale Workflows.
Tencent Hunyuan / Tencent HY

LLM „Truly usable and practical AI“

4,4/10 KIFOX Score – Eingeschränkt
Free Free Resource Package / Testkontingent
Bei erstmaliger Aktivierung von Tencent HY Text Generation Global wird ein einmaliges kostenloses Testkontingent als Resource Package bereitgestellt; nach Verbrauch oder Ablauf ist Postpaid-Aktivierung erforderlich.
Sonstiges Token Postpaid / Pay-as-you-go API-Abrechnung nach Tokenverbrauch für Hunyuan-Textfunktionen; Abrechnung über Tencent Cloud nach Verbrauch und aktivierter Postpaid-Einstellung.

Tencent HY 3D Global Separates Produkt für 3D-Generierung aus Text, Bild oder Skizze mit eigener Abrechnung und API-/Cloud-Nutzung.

Enterprise / Tencent Cloud Agreements Individuelle Cloud-, Vertrags- und Compliance-Setups über Tencent Cloud möglich; konkrete Konditionen und Datenregionen müssen vertraglich geprüft werden.
(0)

Link

Anthropic bietet über die Claude API aktuelle LLMs für Sprachverarbeitung, Reasoning, Coding, agentische Workflows, Tool-Nutzung und dokumentennahe Aufgaben an. Alle aktuellen Claude-Modelle unterstützen laut offizieller Modellübersicht Text- und Bild-Input, Text-Output, Multilingualität und Vision. Für den direkten API-Einstieg verweist Anthropic auf die Messages API; zusätzlich gibt es Managed Agents für länger laufende Aufgaben.Anthrophic Claude API Docs

LLM „highly performant, trustworthy, and intelligent AI platform“

6,9/10 KIFOX Score – Solide
Free Anthropic dokumentiert, dass neue Nutzer eine kleine Menge kostenloser Credits zum Testen der API erhalten. Das ist aber kein klassischer dauerhafter Free-Plan im SaaS-Sinn, sondern eher ein Testguthaben. Sonstiges Tokenbasierte Claude API Abrechnung nach Modellfamilie wie Opus, Sonnet und Haiku sowie Input-, Output-, Cache-Write- und Cache-Read-Tokens.

Prompt Caching Wiederverwendung großer Prompts, Systemanweisungen oder Dokumentkontexte zur Kosten- und Latenzreduktion. Batch API Asynchrone Verarbeitung großer Request-Mengen mit reduziertem Abrechnungsmodell.

Long Context / 1M Context Für bestimmte aktuelle Modelle verfügbar; geeignet für sehr große Dokumente, Codebasen und Analysekontexte.

Data Residency / Drittplattformen Claude ist auch über AWS Bedrock, Google Vertex AI und Microsoft Foundry verfügbar; regionale Preise und Datenführung hängen von der jeweiligen Plattform ab.
(0)

Link

xAI bietet über seine API Grok-Modelle für Textgenerierung, Reasoning, Coding, Tool-Nutzung, dokumentennahe Workflows und agentische Recherche an. Die aktuellen Docs fokussieren vor allem auf Grok 4.20 als neues Flaggschiff sowie auf serverseitige Tools wie Web Search, X Search, Code Execution und Collections Search.

Zusätzlich dokumentiert xAI klassische Modell-Listing-Endpunkte wie /v1/models und /v1/language-models.
xAI API – Grok

LLM „Build with Grok, the AI model designed to deliver truthful, insightful answers.“

7,2/10 KIFOX Score – Gut
Sonstiges Tokenbasierte API-Nutzung Abrechnung nach Input-, Reasoning-, Completion-, Image- und cached Prompt Tokens je Modell.

Server-side Tools Zusätzliche Abrechnung für Tool-Invocations; Kosten können mit Komplexität agentischer Anfragen steigen.

Credits / API-Key API-Nutzung erfolgt über xAI-Account, API-Key und gekaufte Credits.

Enterprise / ZDR Enterprise-Kunden können Zero Data Retention nutzen, sodass API-Anfragen und Antworten nicht gespeichert werden.

Voice / Imagine / Batch / Tools Zusätzliche Produktbereiche für Echtzeitgespräche, TTS/STT, Bild-/Video-Generierung, Batch-Verarbeitung, Websuche und strukturierte Ausgaben.
(0)

Link

Google bietet mit der Gemini API eine Modellfamilie für Textgenerierung, Reasoning, Coding, Agenten-Workflows, Tool-Nutzung, multimodale Prompts und dokumentennahe Verarbeitung an.

Für aktuelle API-LLMs sind besonders Gemini 3.1 Pro Preview, Gemini 3 Flash Preview, Gemini 3.1 Flash-Lite Preview, Gemini 2.5 Pro, Gemini 2.5 Flash und Gemini 2.5 Flash-Lite relevant. Ältere Gemini-2.0-Flash-Varianten sind noch verfügbar, aber bereits als deprecated markiert.
Google Gemini API

LLM „AI for every developer“

7,1/10 KIFOX Score – Gut
Free Kostenlose bzw. unbezahlte Nutzung mit Limits; Inhalte können zur Produktverbesserung genutzt werden und sollten keine sensiblen oder vertraulichen Daten enthalten. Sonstiges Gemini API Paid Tier Für Produktionsanwendungen mit höheren Limits, Context Caching, Batch API, Zugriff auf fortgeschrittene Modelle und ohne Nutzung von Inhalten zur Produktverbesserung.

Batch / Context Caching / Priority / Flex Zusätzliche Abrechnungs- und Betriebsoptionen für Kosten-, Latenz- und Durchsatzsteuerung.

Vertex AI / Google Cloud Enterprise-naher Betrieb mit Cloud-DPA, IAM, regionalen Endpunkten, Data Residency, Monitoring und Zero-Data-Retention-Konfigurationen.

Grounding / Tuning / Embeddings / Live API Erweiterte Funktionen für Suche, Kontextanreicherung, Modellanpassung, Vektorsuche, Realtime-Audio und multimodale Anwendungen.
(0)

Link

Alibaba Cloud Qwen ist die LLM-/Multimodal-Modellfamilie von Alibaba Cloud. Über Model Studio / DashScope können Entwickler Qwen-Modelle per API nutzen, darunter Textmodelle, multimodale Modelle, Reasoning-Modelle, Coding-Modelle, Übersetzungsmodelle und Open-Source-/Open-Weight-Varianten. Die API ist OpenAI-kompatibel und kann je nach Region über unterschiedliche Endpoints genutzt werden.Alibaba Cloud Qwen API

LLM „one-stop model service platform“,

7,3/10 KIFOX Score – Gut
Free Kostenlose Kontingente für bestimmte Modelle/Regionen; Free Quota gilt nur für Real-Time-Inference und nicht für Batch Calls, Context Cache, Fine-Tuning, Deployment oder Custom Models. Sonstiges Pay-as-you-go / Model Invocation Nutzungsbasierte Abrechnung nach Modell, Input-/Output-Tokens, Thinking-/Non-Thinking-Modus, Region und Deployment-Modus.

Batch Calls Separate Verarbeitung großer Workloads; nicht durch Free Quota abgedeckt.

Context Cache Cache-Funktion zur Reduktion wiederholter Kontextkosten; nicht durch Free Quota abgedeckt.

Fine-Tuning / Deployment / Custom Models Modellanpassung und Deployment eigener bzw. feinabgestimmter Modelle; separat abgerechnet und nicht über Free Quota abgedeckt.

OpenAI-/Responses-kompatible API Qwen-Modelle unterstützen OpenAI-kompatible Schnittstellen und Responses API für agentische Anwendungen.
(0)

Link

„Trustworthy artificial intelligence that powers humanity towards superproductivity“

AI21 Labs ist ein israelischer Anbieter von Large Language Models und KI-Orchestrierungssystemen für Unternehmen. Kernprodukt im Modellbereich ist die Jamba-Familie, eine hybride SSM-/Transformer-Modellfamilie für lange Kontexte, RAG, Frage-Antwort-Systeme, Dokumentenverarbeitung und sichere Enterprise-Deployments. Ergänzend bietet AI21 mit Maestro ein modellagnostisches Orchestrierungssystem für validierte RAG-Agenten und komplexe Geschäftsaufgaben.
AI21 Labs

LLM "Trustworthy artificial intelligence that powers humanity towards superproductivity"

7,6/10 KIFOX Score – Gut
Free Neue Accounts erhalten zeitlich begrenzte Trial-Credits für AI21 Platform, APIs, SDK und Playground. Wirklich nutzbar für Tests, Prototyping und Evaluierung; für kontinuierlichen produktiven Betrieb ist Billing bzw. ein kostenpflichtiges Modell erforderlich. Abo Pay As You Go: nutzungsbasierter Zugang zu Foundation-Model-APIs, SDK und unbegrenzten Seats.

Custom Plan: enthält Pay-as-you-go-Funktionen plus Volumenvereinbarungen, Premium-Rate-Limits, Private-Cloud-Hosting, Priority Support, Dedicated Account Manager und AI-Consulting. Keine direkten Preise aufgeführt.
Sonstiges AI21 nutzt tokenbasierte API-Abrechnung, individuelle Zahlungs-/Enterprise-Pläne und Cloud-Provider-Abrechnung über Partner wie AWS, Microsoft Azure, Google Cloud / Vertex AI Model Garden oder SageMaker/Bedrock. Zusätzlich sind Self-Deployment, Fine-tuning, Quantization und Custom AI Systems relevant, je nach Vertrag und Infrastruktur. Keine direkten Preise aufgeführt.
(0)

Link

"Frontier intelligence, customized to you.“

Die Mistral API ist die Entwickler- und Enterprise-Schnittstelle für Mistral-Modelle.

Über Mistral AI Studio können Unternehmen und Entwickler Modelle per API nutzen, Prompts testen, Agents bauen, RAG-Workflows umsetzen, Fine-Tuning nutzen, Workspaces verwalten und API-Nutzung abrechnen. Mistral bietet sowohl open-weight als auch kommerzielle/Premier-Modelle an.
Mistral API

LLM - build, customize, and deploy AI, your way

8,1/10 KIFOX Score – Sehr gut
Free Le Chat Free Persönlicher KI-Assistent für Chat, Suche, Lernen, Bilder, Projekte, Memories und Connectors; nicht gleichzusetzen mit produktiver API-Nutzung. Sonstiges API / La Plateforme Nutzungsbasierte API für Mistral-Modelle, Chat, Embeddings, OCR, Agents, Coding, multimodale Modelle und Entwickler-Workflows.

Self-Deployment / Open-Weight-Modelle Ausgewählte Modelle können selbst oder über Cloud-/Enterprise-Deployments betrieben werden; Funktionsumfang hängt vom jeweiligen Modell ab.

Enterprise Private Deployment Individuelle private Bereitstellung für Organisationen mit erhöhten Kontroll-, Sicherheits- und Skalierungsanforderungen.
(0)

Link

Command A ist Cohere’s leistungsstärkstes Enterprise-LLM für reale Unternehmensaufgaben wie Tool Use, Retrieval-Augmented Generation, Agents und mehrsprachige Workflows.

Das Modell hat 111 Milliarden Parameter, unterstützt 23 Sprachen, besitzt ein 256k-Kontextfenster und ist laut Cohere auf einen vergleichsweise niedrigen Inferenz-Footprint ausgelegt.
Command A

LLM „Our largest, most performant model, ideal for building enterprise agents with a low compute footprint.“ - „Max performance, minimal compute“

8,0/10 KIFOX Score – Sehr gut
Free Ja, eingeschränkt. Öffentlich primär API-/Enterprise-Nutzung; kostenlose Test- oder Eval-Zugänge können vertrags-/accountabhängig sein. Sonstiges API-Nutzung Modellzugriff über Cohere API, nutzungsbasierte Abrechnung nach Modell und Tokens.

Enterprise / Private Deployment VPC, On-Premises oder air-gapped Deployment für Unternehmen mit strengen Datenschutz-, Sicherheits- und Datenresidenzanforderungen.

North / Compass / Embed / Rerank Ergänzende Cohere-Produkte für Agenten, Enterprise Search, Embeddings und Retrieval
(0)

Link

„The AI community building the future.“

Hugging Face ist kein einzelner proprietärer LLM-Anbieter, sondern eine Plattform für das Hosten, Entdecken, Verteilen, Evaluieren und Bereitstellen von KI- und LLM-Modellen. Der Model Hub dient zur Speicherung, Discovery und Nutzung von Modell-Checkpoints; LLMs können über Inference Providers, Inference Endpoints oder lokal über Bibliotheken wie Transformers genutzt werden.
Hugging Face

LLM „The AI community building the future.“

7,4/10 KIFOX Score – Gut
Free Du kannst mit einem kostenlosen Hugging-Face-Konto API-Zugriff testen. Es gibt monatliche Free Credits. Laut aktueller Hugging-Face-Doku erhalten Free-Nutzer monatliche Credits, aktuell mit $0.10 angegeben, Änderungen vorbehalten. Danach brauchst du zusätzliche Credits bzw. zahlst nutzungsbasiert. Abo PRO Mit Hugging Face PRO bekommst du deutlich mehr enthaltene Inference Credits. Die Pricing-Seite nennt für PRO u. a. 20× included inference credits; die Inference-Doku nennt aktuell $2.00 monatliche Credits für PRO-Nutzer.

Team & Enterprise Für Organisationen gibt es Team und Enterprise. Diese Pläne enthalten ebenfalls Inference-Provider-Vorteile bzw. Credits pro Seat und ermöglichen zentrale Abrechnung, Limits und Verwaltung. Laut Hugging Face erhalten Team-/Enterprise-Organisationen aktuell $2.00 pro Seat an monatlichen Credits.
Sonstiges Pay-as-you-go Wenn deine Credits verbraucht sind, kannst du weiter API-Anfragen stellen, indem du zusätzliche Credits kaufst bzw. nutzungsbasiert zahlst. Die Kosten hängen vom konkreten Modell, Provider und Verbrauch ab.

Eigener Provider-Key Du kannst teilweise auch eigene API-Keys externer Provider verwenden. Dann läuft die Abrechnung nicht über Hugging Face, sondern direkt über den jeweiligen Provider; Hugging Face berechnet diesen Call laut Doku nicht.
(0)

Link

Llama ist Metas Familie generativer Foundation-Modelle für Text und teilweise Bild-/Textverständnis.

Meta positioniert Llama als flexibel einsetzbare Modellreihe, die sich fine-tunen, distillieren und „anywhere“ deployen lässt; dazu gehören Self-Hosting, Private Cloud und Hosting über Partner. Llama 4 bringt native Multimodalität, während Llama 3.x weiterhin wichtige Text-, Coding-, Übersetzungs- und Agent-Use-Cases adressiert.
Meta Llama

LLM „Industry Leading, Open-Source AI“

6,7/10 KIFOX Score – Solide
Free Llama-Modellgewichte / Download Llama-Modelle können unter Meta-Lizenz heruntergeladen, feinabgestimmt, destilliert und selbst betrieben werden; Infrastrukturkosten entstehen beim eigenen Betrieb separat.

Meta Llama API Preview / Waitlist Die Llama API ist offiziell über Waitlist/Login positioniert; eine dauerhaft frei nutzbare öffentliche API-Free-Version mit gesicherten Limits konnte ich nicht belastbar belegen.
Sonstiges Managed Llama API API-Zugriff auf aktuelle Llama-Modelle, API-Key, Playground, SDKs, OpenAI-ähnliche Integration, Tool-Calling und Modelle wie Llama 4 Maverick/Scout laut offizieller Llama-API-Seite.

Self-Hosting / eigene Cloud / Edge Betrieb der Modellgewichte auf eigener Infrastruktur, bei Cloud-Anbietern oder lokal; geeignet für Datenschutz, Kostenkontrolle und individuelle Optimierung.

loud-Provider / Drittanbieter-Hosting Llama-Modelle sind über verschiedene Cloud- und Inferenzanbieter verfügbar; Datenschutz, Preise und Serverstandorte hängen dann vom jeweiligen Anbieter ab.

Fine-Tuning / Distillation / Llama Stack Anpassung und Integration in eigene KI-Architekturen, abhängig von Modelllizenz, Infrastruktur und technischem Setup.
(0)

Link