Resumen IA Mayo 2025: GPT-4o General, Google I/O 2025 y la IA Multimodal para Pymes
OpenAI lanzó GPT-4o para todos. Google I/O trajo Gemini 1.5 Pro y Astra. Microsoft Build anunció Copilot Agents. La multimodalidad se volvió estándar.
## Lo más importante de mayo 2025
- OpenAI GPT-4o: lanzado el 13 de mayo, gratis para todos los usuarios. Multimodal nativo (texto, audio, imagen, video).
- Google I/O 2025: Gemini 1.5 Pro para 1M tokens, anuncio de Astra (IA con visión en tiempo real), Veo para video.
- Microsoft Build 2025: Copilot Agents en Windows, Office y Azure, disponibles para empresas.
- Anthropic Claude 3.5 Sonnet (preview): anunciado en preview para developers.
- Meta: anuncio de Llama 4 para 2026.
GPT-4o: la multimodalidad se volvió estándar
GPT-4o es el primer modelo de OpenAI que procesa texto, audio, imagen y video en el mismo modelo, sin necesidad de herramientas intermedias. Esto significa:
- Puedes hablarle y te responde con voz natural.
- Puedes mostrarle algo por cámara y lo entiende.
- Puede razonar sobre video en tiempo real.
Para tu Pyme: - Atención al cliente por voz sin bots robóticos. - Análisis de imágenes: fotos de productos, facturas, contratos. - Capacitación visual: mostrarle a la IA una pantalla y pedirle que la explique.
Google I/O 2025: Astra y la IA visual
Google mostró Astra, un asistente que ve a través de la cámara de tu teléfono y responde sobre lo que está viendo en tiempo real. Es como tener un asistente que ve el mundo contigo.
También anunció: - Gemini 1.5 Pro con 1 millón de tokens de contexto (caben 5 libros). - Veo para generar video desde texto (competencia de Sora). - Gemini en Gmail, Docs, Meet: para todos los usuarios de Workspace.
Para tu Pyme: - Gemini en Gmail sugiere respuestas a correos en español. - Gemini en Meet toma notas y genera resúmenes automáticos. - Gemini en Docs ayuda a redactar y editar documentos.
Microsoft Copilot Agents
Microsoft Build 2025 presentó Copilot Agents, agentes de IA que operan Office, Windows y Azure de forma autónoma. Pueden:
- Crear documentos en Word.
- Enviar correos en Outlook.
- Programar reuniones en Teams.
- Analizar datos en Excel.
Para tu Pyme: - Si ya usas Microsoft 365, los Copilot Agents están disponibles con un add-on. - Pueden automatizar flujos completos: "cada lunes, genera el reporte de ventas de la semana y envíalo al gerente".
3 casos aplicados a Pymes chilenas con IA multimodal
### Caso 1: Tienda de reparación de celulares
Problema: diagnosticar problemas de teléfonos requería experiencia visual.
Solución con GPT-4o + cámara: - El técnico muestra el celular a la cámara - GPT-4o analiza la pantalla, el estado físico, signos de daño - Sugiere posibles causas y soluciones - Resultado: 3 técnicos junior pudieron atender casos que antes requerían senior; 1 senior recuperó 8 horas semanales
### Caso 2: Inmobiliaria con tours virtuales
Problema: los clientes no podían visitar físicamente todas las propiedades.
Solución con Veo + Google I/O: - Genera video de 30 segundos de cada propiedad desde fotos - El cliente ve un tour rápido antes de pedir visita física - Resultado: 1 coordinador recuperó 12 horas semanales de visitas improductivas
### Caso 3: Equipo de marketing con análisis de competencia
Problema: analizar lo que hace la competencia en redes sociales tomaba 1 día.
Solución con Gemini 1.5 Pro: - Sube capturas de redes de la competencia - Gemini analiza tono, frecuencia, tipo de contenido - Genera informe con recomendaciones - Resultado: 1 community manager recuperó 7 horas semanales
Costos y disponibilidad
| Herramienta | Costo | Disponibilidad | |-------------|-------|----------------| | GPT-4o (Plus) | US$20/mes | Global, en español | | GPT-4o (gratis) | $0 | Con límites | | Gemini 1.5 Pro | US$20/mes (Google One AI Premium) | En Workspace | | Gemini Advanced (gratis) | $0 | Con límites | | Microsoft Copilot | $30/usuario/mes | Office 365 + Add-on | | Microsoft 365 Copilot | $30/usuario/mes | Con plan Business |
Multimodalidad: casos de uso por sector
| Sector | Caso de uso multimodal | |--------|------------------------| | Retail | Análisis visual de estanterías, productos dañados | | Salud (PyME) | Análisis de radiografías básicas, fotos de lesiones | | Construcción | Análisis de avance de obra por fotos | | Educación | Explicación de tareas con cámara, transcripción de clases | | Logística | Lectura de códigos, facturas, etiquetas | | Legal | OCR de documentos antiguos, análisis de contratos | | Marketing | Análisis visual de anuncios de competencia |
Tu plan de acción para junio 2025
Prueba GPT-4o gratis con la app de ChatGPT. Habla con él, muéstrale cosas por cámara.
Si usas Google Workspace, activa Gemini y experimenta con respuestas inteligentes en Gmail.
Si usas Microsoft 365, evalúa el add-on de Copilot (con ROI claro).
Identifica UN proceso visual en tu Pyme donde la multimodalidad pueda ayudar.
Capacita a tu equipo en el uso básico (1 hora de reunión).
Lo que viene en junio 2025
Esperado: - Apple WWDC: anuncio de Apple Intelligence (IA en iOS). - Claude 3.5 Sonnet (release). - Posibles anuncios de Mistral y Cohere.
En BIM-Soluciones te podemos ayudar a identificar oportunidades multimodales concretas para tu Pyme. Conversemos.
¿Te interesa aplicar IA en tu empresa?
En BIM-Soluciones ayudamos a empresas a implementar soluciones de Big Data, automatización y agentes de IA adaptadas a sus procesos reales.
Solicitar consulta gratuita