Dokumentation

Allt du behöver veta om staik VOICE.

Kom igång

Klicka "Testa gratis" på startsidan, eller logga in med din egen API-nyckel från api.staik.se.
Dra in en ljudfil eller välj från enheten. Stödjer mp3, wav, m4a, webm och ogg upp till 100 MB / 30 minuter.
Välj språk (auto, svenska eller engelska) och om talarseparering ska vara på.
Klicka "Transkribera" — Whisper-large-v3 körs på svensk GPU och pyannote separerar talare. Resultatet visas på skärmen.
Kopiera, ladda ner som .txt, .srt, .vtt eller JSON, eller dela direkt.

Format som stöds

Ljudformat

MP3
WAV
M4A / AAC
WebM (Opus / Vorbis)
OGG

Användningsområden

Mötesanteckningar
Intervjuer och poddar
Föreläsningar och seminarier
Röstmemos
Interna samtal
Forskningsintervjuer

API-referens

staik VOICE använder staik API (api.staik.se/v1/audio/transcriptions) för transkription. Det är OpenAI Whisper-kompatibelt — byt bara base_url.

POSThttps://api.staik.se/v1/audio/transcriptions

Autentisering

Bearer-token i Authorization-headern. Skaffa en nyckel på api.staik.se.

Modell

whisper-large-v3

curl

curl -X POST https://api.staik.se/v1/audio/transcriptions \
  -H "Authorization: Bearer sk-..." \
  -F file=@meeting.mp3 \
  -F model=whisper-large-v3 \
  -F response_format=verbose_json \
  -F diarize=true \
  -F language=sv

Python (openai SDK)

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.staik.se/v1",
)

with open("meeting.mp3", "rb") as f:
    transcript = client.audio.transcriptions.create(
        file=f,
        model="whisper-large-v3",
        response_format="verbose_json",
        extra_body={"diarize": True},
    )

for seg in transcript.segments:
    speaker = seg.get("speaker", "?")
    print(f"[{speaker} {seg['start']:.1f}s] {seg['text']}")

Svar

Svaret följer OpenAI:s verbose_json-format med extra fält för talare per segment (speaker) och tidsstämplar per ord.

Begränsningar

MVP: max 100 MB filstorlek och 30 minuters ljud i synkront läge.
Längre filer (>30 min) hanteras via async-läge i nästa etapp.
Pricing-modell: 1 minut ljud = 1 000 tokens.
Talarseparering kräver minst två tydliga röster för att fungera bra.
Whisper-large-v3 stödjer 99 språk; svenska och engelska är primärt testade.
Kvaliteten beror på inspelningsljudet — undvik kraftig bakgrund och överlappande tal.

Planer och priser

Demo-kontot är gratis för korta klipp. Med en egen nyckel får du fler tokens och kan transkribera längre filer. Se alla planer på api.staik.se→

Tips för bästa resultat

Spela in i en lugn miljö — minimera bakgrundsljud.
Placera mikrofonen så att alla deltagare hörs jämnt.
Använd en extern mikrofon vid längre möten — bättre kvalitet ger bättre transkription.
16 kHz mono räcker — högre samplingsfrekvens ger ingen extra vinst.
Vid talarseparering: undvik att flera talar samtidigt.