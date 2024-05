Feliz semana, estimado lector.

Esta semana me gustaría hablar del futuro de los dispositivos móviles. Al momento de escribir esta columna, estamos a la espera de que OpenAI revele un nuevo producto. Hay mucha especulación sobre si será un nuevo motor de búsqueda o un asistente personal al estilo de Siri en el iPhone, pero obviamente con el poder de GPT detrás de él.

Vale la pena mencionar que tener un asistente, cuyo motor lingüístico sea GPT, seguramente será un producto interesante. Sin embargo, no creo que sea el gran paso hacia adelante que se espera de una compañía como OpenAI, que nos dio ChatGPT. Y es justo de eso de lo que debemos hablar: la integración del mundo físico con los grandes modelos de lenguaje.

Hemos visto, desde la salida de GPT, múltiples aplicaciones donde se utiliza el modelo de lenguaje para crear código o para crear diferentes tipos de documentos de forma automatizada. Múltiples empresas están evaluando migraciones de código o creaciones de infraestructura a partir de estos grandes modelos de lenguaje. Pero aún no vemos a una empresa que realmente genere mucho valor a partir de los mismos.

En estos meses también vimos el lanzamiento de dos dispositivos de hardware que consideramos un “LLM in a Box”, es decir, un dispositivo con el cual interactuamos con un modelo de lenguaje por medio de la voz, sin teclado o una interfaz tradicional. En las primeras reseñas, estos dispositivos aparentemente son un fracaso. Son lentos, no son tan funcionales como podría ser un teléfono, y lo más importante, no son una justificación para tener un dispositivo más. Ambos podrían ofrecer la misma solución como una aplicación en nuestros teléfonos inteligentes en lugar de ser un dispositivo adicional que tenemos que cargar.

Aquí es donde yo pienso que, si bien los modelos de lenguaje como los que tenemos hoy son grandes herramientas, debemos considerar que se necesitan otros desarrollos tecnológicos para poder utilizarlos a su máximo potencial.

Por ejemplo, el tiempo que se tarda entre la pregunta y la respuesta, por lo general, es antinatural, incluso al tomar una foto. Necesitamos más investigación alrededor de la realidad aumentada y determinar de qué manera podemos hacer interactuar a esta con modelos que puedan identificar y dar sugerencias basadas en lo que se está observando en ese momento.

De la misma forma, las interfaces de audio aún se sienten robóticas y lentas; se necesita una naturalidad casi predictiva, ya que nuestros cerebros no funcionan como los asistentes actuales, donde hasta que se deja de hablar se procesa la información. No, nuestros cerebros van procesando la información a medida que la vamos ingresando en el cerebro de la otra persona.

Si se dan cuenta, estos problemas no son problemas de “inteligencia” del modelo, son problemas de las interfaces que utilizamos para poder usar los modelos. Y es en este punto donde veo una gran área de oportunidad para startups y empresas: aquella que logre descifrar la combinación correcta podría tener la siguiente gran interfaz en sus manos y podría ser el sucesor espiritual de los dispositivos que hoy tenemos.

Me hace recordar una serie japonesa algo vieja llamada “Coil” (Denno Coil, en japonés), donde a través de la interfaz de realidad aumentada se hace una integración entre el mundo cibernético y la realidad, lo que sería el ideal de muchos futuristas. Aún no he visto una empresa que muestre esto, pero me parece que estamos dando los pasos adecuados.