Dokumentation

Allt du behöver veta om staik VOICE.

Kom igång

  1. Klicka "Testa gratis" på startsidan, eller logga in med din egen API-nyckel från api.staik.se.
  2. Dra in en ljudfil eller välj från enheten. Stödjer mp3, wav, m4a, webm och ogg upp till 100 MB / 30 minuter.
  3. Välj språk (auto, svenska eller engelska) och om talarseparering ska vara på.
  4. Klicka "Transkribera" — Whisper-large-v3 körs på svensk GPU och pyannote separerar talare. Resultatet visas på skärmen.
  5. Kopiera, ladda ner som .txt, .srt, .vtt eller JSON, eller dela direkt.

Format som stöds

Ljudformat

  • MP3
  • WAV
  • M4A / AAC
  • WebM (Opus / Vorbis)
  • OGG

Användningsområden

  • Mötesanteckningar
  • Intervjuer och poddar
  • Föreläsningar och seminarier
  • Röstmemos
  • Interna samtal
  • Forskningsintervjuer

API-referens

staik VOICE använder staik API (api.staik.se/v1/audio/transcriptions) för transkription. Det är OpenAI Whisper-kompatibelt — byt bara base_url.

POSThttps://api.staik.se/v1/audio/transcriptions

Autentisering

Bearer-token i Authorization-headern. Skaffa en nyckel på api.staik.se.

Modell

whisper-large-v3

curl

curl -X POST https://api.staik.se/v1/audio/transcriptions \
  -H "Authorization: Bearer sk-..." \
  -F file=@meeting.mp3 \
  -F model=whisper-large-v3 \
  -F response_format=verbose_json \
  -F diarize=true \
  -F language=sv

Python (openai SDK)

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.staik.se/v1",
)

with open("meeting.mp3", "rb") as f:
    transcript = client.audio.transcriptions.create(
        file=f,
        model="whisper-large-v3",
        response_format="verbose_json",
        extra_body={"diarize": True},
    )

for seg in transcript.segments:
    speaker = seg.get("speaker", "?")
    print(f"[{speaker} {seg['start']:.1f}s] {seg['text']}")

Svar

Svaret följer OpenAI:s verbose_json-format med extra fält för talare per segment (speaker) och tidsstämplar per ord.

Begränsningar

  • MVP: max 100 MB filstorlek och 30 minuters ljud i synkront läge.
  • Längre filer (>30 min) hanteras via async-läge i nästa etapp.
  • Pricing-modell: 1 minut ljud = 1 000 tokens.
  • Talarseparering kräver minst två tydliga röster för att fungera bra.
  • Whisper-large-v3 stödjer 99 språk; svenska och engelska är primärt testade.
  • Kvaliteten beror på inspelningsljudet — undvik kraftig bakgrund och överlappande tal.

Planer och priser

Demo-kontot är gratis för korta klipp. Med en egen nyckel får du fler tokens och kan transkribera längre filer. Se alla planer på api.staik.se

Tips för bästa resultat

  • Spela in i en lugn miljö — minimera bakgrundsljud.
  • Placera mikrofonen så att alla deltagare hörs jämnt.
  • Använd en extern mikrofon vid längre möten — bättre kvalitet ger bättre transkription.
  • 16 kHz mono räcker — högre samplingsfrekvens ger ingen extra vinst.
  • Vid talarseparering: undvik att flera talar samtidigt.