IA en listings: Claude para texto, Gemini para fotos
Equipo Orkasa
Engineering
La pregunta nos llegó tres veces esta semana: "¿por qué no usás un solo modelo de IA para todo?". Razonable — sería más simple. Pero después de probar varias combinaciones, llegamos a esto: Claude Opus 4.7 para texto y razonamiento, Gemini 2.5 Flash Image para edición de fotos.
Lo que hace Claude
Claude maneja todo lo que requiere:
- Razonamiento estructurado — analizar specs de una propiedad y decidir qué destacar para qué portal.
- Tono consistente — escribir en español de Panamá, México, Argentina o España según el portal destino, sin mezclar.
- Vision para fotos — analizar imágenes y devolver score, crítica y orden sugerido (es un input al texto, no edición).
- Compliance reasoning — interpretar reglas de KYC y decidir cuándo escalar a un human review.
Lo que hace Gemini
Gemini 2.5 Flash Image (lo que antes se llamaba "Nano Banana") es el único modelo que hoy edita imágenes con calidad consistente para inmuebles. Probamos:
- DALL-E 3 / GPT-Image: muy bueno para generación, malo para edición preservando layout.
- Stable Diffusion + ControlNet: excelente control, pero requiere infraestructura y los resultados varían demasiado.
- Imagen 3: cierra cuando le pedís edición sutil, exagera todo.
- Gemini 2.5 Flash Image: edición real, conserva proporciones, no inventa muebles donde no había.
Cuatro casos de uso reales que cubrimos:
1. Reemplazo de cielo
Foto exterior con cielo gris → cielo despejado con golden hour suave. Sin halo en el horizonte (un problema común con SD).
2. Mejora de iluminación
Living oscuro → living equilibrado, sin el look HDR sintético que castiga al ojo.
3. Decluttering
Sacar objetos personales (juguetes, ropa colgada, foto familiar en la mesa) sin alterar muebles fijos. Crítico para showings.
4. Virtual staging
Ambiente vacío → muebles neutros contemporáneos. Útil para PRP (proceso reducido de promoción) en obras nuevas.
Por qué dos modelos y no uno
Hay tres razones técnicas:
Calidad por dominio
Cada modelo es state-of-the-art en su dominio. Pedirle a Claude que edite imágenes pixel-a-pixel sería como pedirle a Gemini que escriba un contrato — funciona, pero no al nivel del especialista.
Costo
Claude Opus es caro pero rápido para razonamiento. Una llamada de listing studio cuesta ~$0.04. Si pasáramos las imágenes por Claude para edición, cada listing nos saldría $0.30+ por foto.
Gemini 2.5 Flash Image cuesta ~$0.01 por edición. Mantener costos bajos nos permite ofrecer 200 mejoras de fotos por mes en el plan Team.
Velocidad
Listing studio (texto) tarda 3-5 segundos. Edición de foto tarda 5-10 segundos. Si fuera secuencial sería frustrante. Los corremos en paralelo cuando hay batch.
Lo que queda fuera del alcance de la IA
Por más buenos que sean los modelos, hay decisiones que mantenemos en manos del agente:
- Precio sugerido — la IA puede dar comparables, pero el precio lo pone el broker.
- Veracidad de specs — si el dueño dijo "180m²" y son 165m², la IA no detecta eso. Es responsabilidad del agente medir.
- Decisiones de compliance — un match en lista OFAC es un trigger automático, pero la decisión de avanzar o no es humana.
La IA acelera lo mecánico. La decisión sigue siendo del broker. Ese es el modelo que defendemos.
Lo que sigue
En roadmap:
- Generación de planos 2D a partir de fotos (probablemente otro modelo especialista).
- Voz a texto para notas de visita en mobile (probablemente Whisper).
- Embeddings vectoriales para búsqueda semántica de inventario.
Cada feature usará el modelo que sea mejor para esa tarea. Eso significa más complejidad para nosotros — y más calidad para el usuario.