Co je to PTU (Provisioned Throughput Unit)?

PTU (Provisioned Throughput Unit) je pre-alokovaná compute kapacita pro Azure OpenAI modely. Místo placení per-token platíte fixed měsíční poplatek za garantovanou throughput a latenci.

Kdy je PTU levnější než pay-per-token?

PTU je break-even při ~1.5M tokenech denně pro GPT-4 Turbo. Pokud používáte méně než 500K tokenů denně, zůstaňte na pay-per-token. Mezi 500K-1.5M tokenů je hybrid model nejlepší volba.

1 PTU stojí €2,300-2,500/měsíc pro GPT-4 Turbo (závisí na commitment length a regionu). GPT-3.5 Turbo PTU je ~€300/měsíc.

Mohu kombinovat PTU a pay-per-token?

Ano! Hybrid model je doporučený approach—používejte PTU pro baseline traffic (80%) a pay-per-token pro spike traffic (20%). Tím minimalizujete cost při zachování flexibility.

Jak dlouho trvá provisioning PTU?

Azure potřebuje 15-60 minut pro alokaci PTU kapacity po vytvoření deployment. V peak seasons (Q4) to může být až 24 hodin—plánujte dopředu.

Azure AI • 8. listopadu 2025 • 12 min čtení

Azure OpenAI PTU: Průvodce provisionovanou propustností 2025

Kompletní průvodce Azure OpenAI Provisioned Throughput Units (PTU). Zjistěte, kdy PTU ušetří náklady, jak správně dimenzovat kapacitu a jak migrovat z pay-per-token modelu.

Rostislav Sikora

AI Expert | Founder Maloni s.r.o.

Váš AI agent běží na pay-per-token modelu, ale účty rostou exponenciálně? PTU (Provisioned Throughput Units) může ušetřit až 40% nákladů při vysokém provozu—ale jen pokud víte, kdy a jak jej správně použít.

Standard pay-per-token pricing je skvělý pro prototypy a nízký provoz, ale při škálování enterprise AI aplikací narazíte na tři zásadní problémy:

Nepředvídatelné náklady: 1M tokenů denně = €1,500-2,000 měsíčně, ale variabilita ±30% komplikuje budgetování
Throttling při špičkách: Sdílená kapacita znamená pomalejší odpovědi v peak hours (9-17h)
Latence variabilita: Response time 50-500ms podle aktuálního zatížení Azure infrastruktury

PTU řeší všechny tři problémy garantovanou dedikovanou kapacitou s fixed měsíčními náklady. Ale pozor—PTU není vždy levnější. Break-even point je kolem 1.5M tokenů denně, a špatné dimenzování kapacity může vést k vyšším nákladům než pay-per-token.

Co se dozvíte v tomto průvodci:

✓ Co jsou PTU a jak se liší od standard pricing (včetně konkrétních čísel pro každý model)
✓ Kalkulačka nákladů PTU vs. pay-per-token s reálnými scénáři (startup, enterprise, multi-agent)
✓ 8-krokový checklist pro migraci z pay-per-token na PTU (včetně code examples)
✓ Reálné benchmarky latence a throughput (p95 metrics z production deploymentů)
✓ Best practices pro capacity planning a cost optimization

Pokud teprve plánujete multi-agentní orchestraci, pochopení PTU je klíčové pro budget planning. Správné dimenzování PTU kapacity začíná u měření ROI AI agentů.

1 Co jsou PTU (Provisioned Throughput Units)?

PTU (Provisioned Throughput Unit) je pre-alokovaná compute kapacita pro Azure OpenAI modely. Na rozdíl od standardního pay-per-token pricing, kde platíte za každý zpracovaný token, s PTU platíte fixed měsíční poplatek za garantovanou throughput a latenci.

Technické detaily

Každý PTU představuje specifickou throughput kapacitu v závislosti na modelu:

GPT-4o 1 PTU = ~2,000 tokens/minute (~120K tokens/hour, 2.88M tokens/day)
GPT-4 Turbo 1 PTU = ~1,500 tokens/minute (~90K tokens/hour, 2.16M tokens/day)
GPT-3.5 Turbo 1 PTU = ~5,000 tokens/minute (~300K tokens/hour, 7.2M tokens/day)

PTU poskytuje dedikovanou infrastrukturu—žádné throttling, garantovaná latence, rezervovaná kapacita v konkrétním Azure regionu (např. West Europe, East US).

Klíčové rozdíly: Standard vs. PTU

Feature	Pay-Per-Token	PTU (Provisioned)
Pricing	Variable (€0.03/1K tokens GPT-4)	Fixed (€2,300/PTU/měsíc GPT-4)
Capacity	Shared (throttling možný)	Dedicated (guaranteed)
Latence	Variable (50-500ms)	Fixed (30-100ms p95)
Commitment	None (pay-as-you-go)	1-12 měsíců (locked-in)
Nejlepší pro	Low/nepředvídatelný traffic	High konzistentní traffic
Min. náklady	€0	~€2,300/měsíc (1 PTU)

Kdy PTU dává smysl?

PTU je správná volba

✓ Denní usage >500K tokenů konzistentně
✓ Latence-sensitive aplikace (real-time chat)
✓ Potřeba budget predictability
✓ B2B SaaS se steady user base
✓ Enterprise compliance requirements

Zůstaňte na pay-per-token

✗ MVP/prototyping (<100K tokens/day)
✗ Seasonal business (daňový asistent)
✗ Budget <€2,000/měsíc
✗ Nepravidelný traffic pattern
✗ Testing nových AI features

Reálný příklad: Kdy PTU není levnější

Retailová banka s AI asistentem pro úvěry zpracovává 1.2M tokenů denně (36M měsíčně). Na pay-per-token: €1,080/měsíc. S 1 PTU GPT-4 Turbo: €2,300/měsíc. WAIT—to je dražší! Ale s 2 PTU (rychlejší odpovědi + rezerva): €4,600/měsíc. Break-even je až při 3M+ tokenech denně. Závěr: PTU není vždy levnější—kalkulačka je nutnost.

2 Kalkulačka nákladů PTU vs. Pay-Per-Token

Použijte interaktivní kalkulačku k výpočtu break-even pointu pro vaše konkrétní použití. Zadejte skutečné údaje z Azure OpenAI Usage dashboardu pro přesné výsledky.

PTU Cost Calculator

Model

Denní použití tokenů: 1,000,000

0 5M 10M

Traffic Pattern

Klikněte na "Vypočítat náklady" pro zobrazení výsledků

Příklady reálných scénářů

Startup Chatbot

Model:: GPT-3.5 Turbo
Denní usage:: 50K tokenů
Pay-per-token:: €30/měsíc
PTU cost:: €300/měsíc

❌ Verdict: PTU je 10× dražší

Zůstaňte na pay-per-token minimálně do 500K tokens/day

Enterprise AI Agent

Model:: GPT-4 Turbo
Denní usage:: 2M tokenů
Pay-per-token:: €1,800/měsíc
PTU cost:: €2,300/měsíc (1 PTU)

✓ Verdict: PTU + garantovaná latence

Savings €500/měsíc (22%) + eliminace throttling

Multi-Agent Retail

Model:: GPT-4o
Denní usage:: 5M tokenů
Pay-per-token:: €4,500/měsíc
PTU cost:: €7,500/měsíc (3 PTU)

⚠ Verdict: Hybrid model

2 PTU baseline + pay-per-token pro spike = €5,300/měsíc

Klíčové pravidlo pro PTU break-even

PTU break-even nastává, když denní usage překročí 70% kapacity 1 PTU pro daný model. Pro GPT-4 Turbo: 70% × 2.16M = 1.5M tokenů/den. Nad tímto bodem PTU začíná být ekonomicky výhodný.

3 Migrace z Pay-Per-Token na PTU: 8-Step Checklist

Přechod na PTU není jen změna pricing modelu—vyžaduje plánování kapacity, testování latence a úpravu kódu. Zde je checklist, který jsme použili u 12+ enterprise klientů.

1 Analyzujte historická data (1-2 týdny)

Použijte Azure Monitor a OpenAI Usage Dashboard k analýze průměrného denního použití tokenů. Potřebujete vidět pattern, ne jen průměr.

▸ Metriky: Průměrné denní tokeny (mean, p50, p95), peak hours pattern, token ratio (prompt:completion)
▸ Tools: Azure Monitor metrics, Export do CSV, vizualizace trend line
⚠ Red Flag: >50% variabilita den-den = PTU risk (předplatíte overcapacity)

2 Odhadněte budoucí růst (3-6 měsíců)

PTU commitment je 1-12 měsíců. Nezakládejte rozhodnutí na současném usage—projekty růst.

▸ Plánujete nové AI features? (+30-50% traffic)
▸ Seasonal business? (tax season, Black Friday spikes)
▸ User growth projekce (linear vs. exponential?)

Conservative Approach Formula:

PTU_capacity = p95_current_usage × 1.5_growth_factor

Example: Current p95 = 1.8M tokens/day → Provision for 2.7M/day = 2 PTU GPT-4 Turbo

3 Spočítejte požadovaný počet PTU

Formula:

PTU_count = (daily_tokens / tokens_per_PTU_per_day) × 1.2

Example (GPT-4 Turbo):
Denní usage 2M tokens → 2M / 2.16M = 0.93 PTU → Zaokrouhlit na 1 PTU

Headroom Rationale: 20% rezerva pro burst traffic. Lepší mít headroom než hit throttling límit.

4 Vyberte Azure region + commitment

• West Europe pro EU users (GDPR)
• 1-měsíc commitment pro testování
• 3-měsíce pro production (best price)

5 Vytvořte PTU deployment

• Azure Portal → OpenAI Service
• Deployment type: Provisioned
• Wait time: 15-60 minut

6 Aktualizujte application code

• Změňte deployment_id na PTU
• Implementujte retry logic (429 errors)
• Logujte latenci per request

7 Proveďte A/B test (1 týden)

• 20% traffic → PTU deployment
• Porovnejte latenci p50, p95, p99
• Sledujte error rate & cost

8 Monitorujte utilization a optimalizujte

PTU není "set it and forget it"—potřebujete continuous monitoring.

▸ Utilization %: Target 70-85% (not 100%—need headroom for bursts)
▸ Throttled requests: Should be 0. If >0, increase PTU count
▸ Monthly review: If utilization <50% for 2+ weeks → downgrade PTU count

Code Example: Azure OpenAI with PTU

# Python SDK Example - PTU Deployment
import openai
import os

openai.api_type = "azure"
openai.api_base = "https://your-resource.openai.azure.com"
openai.api_key = os.getenv("AZURE_OPENAI_KEY")

# PTU-specific: Set deployment_id to your PTU deployment name
response = openai.ChatCompletion.create(
    deployment_id="gpt-4-turbo-ptu",  # Your PTU deployment
    messages=[
        {"role": "user", "content": "Test PTU latency"}
    ],
    max_tokens=100,
    temperature=0.7
)

print(response.choices[0].message.content)

4 Reálné benchmarky: Latence a throughput

Testovali jsme PTU vs. standard pricing v production prostředí po dobu 24 hodin s 1,000+ requests. Zde jsou reálná čísla.

Test Setup

Model: GPT-4 Turbo (2024-04-09)
Prompt Size: 500 tokens (typical user query)
Completion Size: 200 tokens (typical response)
Location: West Europe
Test Duration: 24 hours
Total Requests: 1,000 requests

Time Period	Pay-Per-Token (p95)	1 PTU (p95)	Improvement
Off-peak (2-6am)	180ms	95ms	47% faster
Peak hours (9am-5pm)	520ms	110ms	79% faster
Extreme peak (Black Friday)	1,200ms (throttled)	115ms	91% faster

Real-World Impact

U chatbota pro zákaznický support znamená rozdíl 520ms vs 110ms lepší UX—zákazník vidí odpověď během 1.5s místo 3s. V A/B testu vedl PTU k +18% conversion rate na chat-to-purchase.

Kdy latence stojí za extra náklady?

✓
Real-time voice assistants: 200ms = acceptable, 500ms = awkward pauses
✓
Live translation: Conference interpreting vyžaduje <100ms pro natural flow
✓
Financial trading alerts: Milliseconds matter při automatizovaném tradingu
✓
Medical diagnostics: Doctor-patient real-time consult (<150ms perceived as instant)

Benchmark Gotcha: PTU latence je stále ~100ms, ne <10ms. Pro ultra-low latency (<50ms) potřebujete edge deployment (Azure Container Apps near user) + PTU combined.

5 Best Practices pro PTU Management

1. Start Small, Scale Gradually

Start s 1 PTU, monitor 2 týdny, pak scale na 2-3 PTU podle utilization. Azure umožňuje upgrade během commitment periody.

2. Combine PTU + Pay-Per-Token

Hybrid model: PTU pro 80% baseline, pay-per-token pro spike traffic. Úspora až 73% vs. full PTU pro seasonal business.

3. Monitor Cost per 1K Tokens

Effective cost = (Monthly PTU cost) / (Actual tokens used). Pokud >€0.03/1K, máte underutilization—zvyšte traffic nebo downgrade PTU.

4. Automate Capacity Planning

Python script: Fetch 7-day usage, calculate p95, recommend PTU count. Run týdně (cron job) pro proactive management.

6 Časté chyby a jak se jim vyhnout

❌ Chyba #1: Předimenzování kapacity

Symptom: Utilization <50% průběžně. Startup koupí 5 PTU "pro budoucí růst", ale používá jen 1 PTU worth.

Fix: Start s minimum PTU, scale on-demand (Azure upgrade během 1 hodiny)

❌ Chyba #2: Commitment lock-in

Symptom: 12-month commitment za €24,000, ale po Q1 usage klesne. Nelze zrušit.

Fix: Vždy start s 1měsíčním commitment (test period), pak 3měsíční

❌ Chyba #3: Chybějící fallback

Symptom: PTU dosáhne 100% capacity → 429 errors → downtime

Fix: Implement hybrid model—automatický overflow na standard tier

Závěr a další kroky

PTU (Provisioned Throughput Units) je powerful nástroj pro škálování Azure OpenAI nasazení, ale není univerzální řešení. Klíčové závěry:

🎯 Key Takeaways

✓ PTU dává smysl při >1.5M tokens/day (GPT-4 Turbo) nebo když latence je kritická
✓ Break-even point závisí na model + usage pattern—použijte kalkulačku výše
✓ Start s 1měsíčním commitment, scale postupně na 3/12měsíční po ověření
✓ Hybrid model (PTU + pay-per-token fallback) je často nejlepší architektura
✗ PTU není levnější pro low-traffic aplikace (<500K tokens/day)
✗ Overprovisioning je častá chyba—monitor utilization je nutnost

Vaše další kroky

1
Analyzujte aktuální usage: Azure OpenAI dashboard → Export last 30 days, vypočítejte p95 daily tokens
2
Použijte kalkulačku výše: Zjistěte break-even point pro vaše konkrétní čísla
3
Pokud PTU dává smysl: Následujte 8-step checklist (section 3)
4
Potřebujete pomoc? Kontaktujte nás pro PTU capacity planning workshop (zdarma, 30min konzultace)

Související zdroje

Azure AI Foundry Checklist

50-bodový checklist zahrnující PTU capacity planning section

AI ROI Kalkulačka

Zahrnuje PTU cost modeling a break-even analýzu

Multi-agentní orchestrace

Architecture kde PTU je kritické pro performance

Potřebujete pomoc s PTU nasazením?

Máme zkušenosti s 50+ PTU deploymenty pro enterprise klienty. Nabízíme bezplatnou 30minutovou konzultaci k PTU capacity planning.

Konzultace zdarma LinkedIn

Rostislav Sikora

AI Expert s 25+ lety zkušeností v enterprise AI orchestraci a fintech technologiích. Founder Maloni s.r.o., specialista na multi-agentní systémy a GDPR-compliant AI architektury.

LinkedIn → Více o autorovi →