Dokumentation
Allt du behöver veta om staik VOICE.
Kom igång
- Klicka "Testa gratis" på startsidan, eller logga in med din egen API-nyckel från api.staik.se.
- Dra in en ljudfil eller välj från enheten. Stödjer mp3, wav, m4a, webm och ogg upp till 100 MB / 30 minuter.
- Välj språk (auto, svenska eller engelska) och om talarseparering ska vara på.
- Klicka "Transkribera" — Whisper-large-v3 körs på svensk GPU och pyannote separerar talare. Resultatet visas på skärmen.
- Kopiera, ladda ner som .txt, .srt, .vtt eller JSON, eller dela direkt.
Format som stöds
Ljudformat
- MP3
- WAV
- M4A / AAC
- WebM (Opus / Vorbis)
- OGG
Användningsområden
- Mötesanteckningar
- Intervjuer och poddar
- Föreläsningar och seminarier
- Röstmemos
- Interna samtal
- Forskningsintervjuer
API-referens
staik VOICE använder staik API (api.staik.se/v1/audio/transcriptions) för transkription. Det är OpenAI Whisper-kompatibelt — byt bara base_url.
POST
https://api.staik.se/v1/audio/transcriptionsAutentisering
Bearer-token i Authorization-headern. Skaffa en nyckel på api.staik.se.
Modell
whisper-large-v3curl
curl -X POST https://api.staik.se/v1/audio/transcriptions \
-H "Authorization: Bearer sk-..." \
-F file=@meeting.mp3 \
-F model=whisper-large-v3 \
-F response_format=verbose_json \
-F diarize=true \
-F language=svPython (openai SDK)
from openai import OpenAI
client = OpenAI(
api_key="sk-...",
base_url="https://api.staik.se/v1",
)
with open("meeting.mp3", "rb") as f:
transcript = client.audio.transcriptions.create(
file=f,
model="whisper-large-v3",
response_format="verbose_json",
extra_body={"diarize": True},
)
for seg in transcript.segments:
speaker = seg.get("speaker", "?")
print(f"[{speaker} {seg['start']:.1f}s] {seg['text']}")Svar
Svaret följer OpenAI:s verbose_json-format med extra fält för talare per segment (speaker) och tidsstämplar per ord.
Begränsningar
- MVP: max 100 MB filstorlek och 30 minuters ljud i synkront läge.
- Längre filer (>30 min) hanteras via async-läge i nästa etapp.
- Pricing-modell: 1 minut ljud = 1 000 tokens.
- Talarseparering kräver minst två tydliga röster för att fungera bra.
- Whisper-large-v3 stödjer 99 språk; svenska och engelska är primärt testade.
- Kvaliteten beror på inspelningsljudet — undvik kraftig bakgrund och överlappande tal.
Planer och priser
Demo-kontot är gratis för korta klipp. Med en egen nyckel får du fler tokens och kan transkribera längre filer. Se alla planer på api.staik.se→
Tips för bästa resultat
- Spela in i en lugn miljö — minimera bakgrundsljud.
- Placera mikrofonen så att alla deltagare hörs jämnt.
- Använd en extern mikrofon vid längre möten — bättre kvalitet ger bättre transkription.
- 16 kHz mono räcker — högre samplingsfrekvens ger ingen extra vinst.
- Vid talarseparering: undvik att flera talar samtidigt.