Modelos de transcripción
wispa puede transcribir con modelos locales que se ejecutan en tu dispositivo o modelos en la nube que usan tu propia clave de API. Aquí tienes todo el catálogo.
3 min de lectura
El modelo es lo que convierte tu voz en texto. wispa te ofrece dos tipos: modelos que se ejecutan en tu dispositivo y modelos en la nube que alcanzas con tu propia clave de API. Cada modo elige uno.
Modelos en el dispositivo
Whisper se ejecuta en local en tamaños de Tiny a Large, más una versión Turbo, así que puedes cambiar velocidad por precisión. Parakeet se ejecuta a través de Apple MLX y es muy rápido en Macs con Apple Silicon. Con cualquier modelo local tu audio se transcribe y se descarta en tu ordenador, sin conexión si quieres.
Modelos en la nube
OpenAI ofrece whisper-1 y los más recientes gpt-4o-transcribe y gpt-4o-mini-transcribe. Groq ejecuta whisper-large-v3-turbo muy rápido. Los modelos en la nube necesitan conexión a internet y tu propia clave de API, y tu audio se envía a ese proveedor.
| Modelo | Dónde se ejecuta | Mejor para |
|---|---|---|
| Whisper Tiny a Base | En tu dispositivo | Rápido y ligero, equipos con pocos recursos |
| Whisper Small a Large | En tu dispositivo | Mayor precisión, totalmente sin conexión |
| Parakeet | En tu dispositivo (Apple Silicon) | Transcripción muy rápida en un Mac |
| OpenAI | Nube, tu clave | Máxima precisión sin descarga |
| Groq | Nube, tu clave | Transcripción en la nube con muy baja latencia |
Preguntas frecuentes
Preguntas y respuestas
¿Cuál es el modelo por defecto?
Un modelo local Whisper Base es el punto de partida recomendado. Se descarga rápido y transcribe bien en la mayoría de equipos sin enviar audio a ningún sitio.
¿Puedo usar modelos distintos para tareas distintas?
Sí. Cada modo fija su propio modelo, así que podrías usar un modelo local rápido para notas cortas y un modelo en la nube para dictados largos donde importa la precisión.
¿Parakeet está disponible en Windows?
No. Parakeet se ejecuta a través de Apple MLX y es solo para Apple Silicon. En Windows puedes usar modelos Whisper locales o un proveedor de la nube.