Por Enrique Onieva Caracuel – Profesor en Inteligencia Artificial, Universidad de Deusto y Borja Sanz Urquijo – Profesor Universitario asistente especializado en ciberseguridad e inteligencia artificial., Universidad de Deusto
La batalla por el dominio del mercado de la inteligencia artificial está en su punto más álgido. Quién gane dependerá de lo útiles que nos resulten Gemini, Bard o ChatGPT.
Son las primeras herramientas de procesamiento de lenguaje que usan inteligencia artificial y que distintos gigantes tecnológicos ofrecen a los usuarios.
Google saca la artillería
Google acaba de encomiar su 25° aniversario, tiempo durante el que se ha consolidado como líder de los motores de búsqueda. Este todopoderoso ha trascendido su función original y ofrece hogaño más de 20 servicios para los usuarios: previsiones meteorológicas, cotizaciones en bolsa, mapas detallados, carteleras de cine e incluso información sobre el tráfico.
Google es ya una parte integral de nuestra vida y lo ha logrado con investigación y desarrollo de soluciones basadas en inteligencia artificial, al igual que otras grandes tecnológicas.
2016 fue el comienzo del asombro. Ese año millones de personas presenciaron cómo la creación de Google DeepMind, AlphaGo, vencía al campeón humano de Go, Lee Sedol. Y lo hacía jugando como no jugaban hasta entonces las máquinas. ¡Guau!
En 2020, AlphaFold, otro desarrollo, resolvió un desafío sin solución durante cincuenta años de investigación: el modo en que se pliegan las proteínas. El avance, la razón de ambos logros, fue la irrupción de la inteligencia artificial en el terreno de juego.
Y llegaron los procesadores de lenguaje
La IA podía ensayarse en casi cualquier desafío pendiente. Uno de ellos era mejorar la capacidad de las computadoras para comprender el lenguaje humano. El logro fue el desarrollo de modelos de lenguaje de gran tamaño LLMs (siglas en inglés para Large Language Model).
Estos modelos, entrenados con enormes volúmenes de texto y a veces código, son el AlphaGo del texto, la escritura, la traducción o la generación de respuestas. Los LLMs son la raíz de ChatGPT, de Bard y de otros tantos.
ChatGPT: un año aprendiendo de nosotros
ChatGPT, de OpenAI, acaba de desinteresarse un año. Esta herramienta está construida sobre uno de los LLMs más potentes hasta hoy: GPT-4. Su potencia, unida a una interfaz simple y a su facilidad de uso, ha situado a la inteligencia artificial en el centro de nuestras vidas.
Para la sociedad, el acceso a una herramienta como ChatGPT ha sido revolucionario. Con un clic, interactuamos en lenguaje nativo con una herramienta con capacidad comparable a la humana en tareas de alto nivel intelectual. ChatGPT puede redactar, traducir y resumir texto, resolver problemas y generar código de programación.
Tras el lanzamiento de ChatGPT, distintas empresas tecnológicas han adaptado y adoptado tecnología de inteligencia artificial conversacional. Microsoft integró ChatGPT en su buscador Bing, anunciando Bing Chat. Su brote al terreno de juego alteró el panorama tecnológico donde, hasta hogaño, Google había sido el líder indiscutible.
La respuesta de Google a ChatGPT: Bard y Gemini
La ola de innovaciones intensificó la competencia. Google trabajó con Deep Mind para poder integrar inteligencia artificial de forma acelerada en sus productos. Y en febrero de 2023 lanzaron Bard, basado en el LLM LambDA, como competencia de ChatGPT.
Bard (en uso) no ha tenido el éxito que se esperaba, lo que refleja el desafío y la complejidad de dominar el mercado de la inteligencia artificial.
Texto, audio, vídeo y fotos: todo en uno
Para reforzar su posición, Google ha anunciado Gemini, un ambicioso proyecto a la altura del gigante.
Gemini es un modelo multimodal desde su concepción y promete procesar y entender el texto, pero también imágenes, audio y vídeo. Todo sin salir de Gemini.
Otros LLMs pueden complementarse, por antonomasia, llamando a modelos generativos de imágenes. Pero Gemini es capaz de hacerlo de forma nativo, comprende diferentes formatos y procesa la información de manera transparente para el usuario.
Gemini estará disponible en tres tamaños: Nano, para móviles; Pro, parecido a la versión gratuita de ChatGPT, y Ultra que, según Google, supera al más potente ChatGPT.
La polémica del nacimiento de Gemini
El anuncio de Gemini ha generado controversia. Por el momento, el acceso a los modelos es limitado. Actualmente solo se puede acceder a la versión Pro, disponible a través de Bard, desde EE UU. Se espera una implantación gradual.
El modelo Nano se integrará inicialmente en dispositivos como Google Pixel 8 y podrá obtenerse la versión Pro con una actualización. El lanzamiento de la versión Ultra sigue sin fecha.
El video de presentación de Gemini ha suscitado dudas sobre la autenticidad de las demostraciones, ya que inicialmente sugería procesamiento de vídeo en tiempo real. Sin embargo, posteriormente se aclaró que se trataba de fotografías individuales acompañadas de instrucciones (prompts) dadas por el usuario. También hay cierto escepticismo en la comunidad científica respecto a las afirmaciones de rendimiento recogidas en el informe técnico ofrecido.
¿Quién se hará con el mercado? ¿Será Bard, será ChatGpt? Sin duda su éxito estará en función de las prestaciones que ofrezcan, incluyendo su integración con paquetes de ofimática y otras aplicaciones. La calidad de las respuestas y la facilidad de uso serán cruciales.
Herramientas como Bard y ChatGPT son el primer ensayo del rumbo que tomará la IA. Pero su éxito final dependerá de cómo mejoran la experiencia del usuario y de si satisfacen o no nuestras necesidades prácticas y cotidianas.
¿El fin de los buscadores tradicionales?
En estos momentos hay un profundo debate sobre si estas herramientas suponen el fin de la búsqueda tradicional en internet. Buscadores como Google facilitan encontrar contenido, pero los usuarios deben ahondar la información. hogaño, estas nuevas herramientas pueden ocuparse de esa tarea de análisis. Pero eso no implica necesariamente que los buscadores tradicionales desaparezcan.
Los retos que se plantean incluyen el aumento de costes computacionales, así como errores, inexactitudes y alucinaciones en los resultados que ofrecen las inteligencias artificiales.
Además de la capacidad conversacional, ya contamos con modelos de inteligencia artificial para comprender o generar imágenes, acceder a información web, transcribir la voz, y para acceder a documentos y aplicaciones externas para mejorar sus respuestas.
Su accesibilidad y capacidad implican replantearnos muchísimas cosas, entre ellas la evaluación de habilidades en educación o la estabilidad laboral de una enorme diversidad de profesiones. Pero hay algo que nadie duda: ChatGPT y los suyos han llegado para quedarse.
The Conversation
TecnologíaChatGPTGeminiBardinteligencia artificial