Skip to main content

Iniciamos o artigo reconhecendo que a onda de entusiasmo da Inteligência Artificial está a ceder lugar à realidade pesada da execução. Onde anteriormente se falava de modelos de IA milagrosos, agora fala-se de métricas de avaliação e de testes de deploy.

O Designer de Produto é o pivô nesta transição.

No evento Sword AI Summit, a 15 novembro de 2025, a mensagem foi clara: o futuro do desenvolvimento de sistemas com IA não reside na habilidade de gerar mas sim nas robustez dos sistemas de avaliação (Evals) e a sua habilidade de responder ao contexto humano. A usabilidade e o UX são o “cérebro” que transforma o modelo têcnico em produto de sucesso.

A Matriz de Dados: Porque o UX não pode viver de “Web Scraps”

O slide da “Pirâmide de Dados para Robôs Generalistas” de Teresa Conceição da NVIDIA é uma metáfora poderosa para a qualidade do produto.

  • O Problema da Base: A maioria dos LLMs – Large Language Models é treinada em Web Data (Web Crawl, Reddit, YouTube) – dados vastos, brutos, mas de baixa qualidade, não estruturados e passivos. Isto cria modelos generalistas que são bons a falar, mas maus a agir no mundo real.
  • O Valor do Real-World Data (RWD): Para construir Agentes que tomam decisões complexas (Generalist Robot), é preciso Real-World Data (alto custo, 24h/Robot/Dia), que é a camada mais alta da pirâmide.

O UX Designer tem de ser o alavanca da produção de agentes ricos em RWD. Se queremos que a IA entregue valor real e tome decisões de segurança/contexto, precisamos de datasets que reflictam comportamento humano, erros, e interações complexas. O UX é o Input de qualidade para o Output de qualidade.

LLMs As A Judge: Medir o Não-Determinístico

A grande rutura na engenharia é a forma de testar.

  • O Determinismo Vs. Não-Determinismo: Testar software tradicional é determinístico (o output para o input X é sempre Y). Os LLM Agents são não-determinísticos (múltiplos outputs são possíveis).
  • O Desafio da Avaliação: Como se mede a “qualidade” ou “usabilidade” de algo que não é 100% previsível? As métricas técnicas (Unit Tests, Code-Based Evals) já não bastam.

Aman Khan, AI Product Management na Arize AI, destacou métricas de Produção centradas no humano:

  • LLM as a Judge: O próprio modelo avalia a coerência, a relevância e o tom de outros outputs.
  • Business Metrics (Métricas de Negócio): Onde o Designer de Produto assume a liderança – Frustrated Users (NPS), Revenue from LLM, Time Spent. Isto significa que a equipa de UX/Produto tem de definir as métricas de sucesso do Agente.

A ponte entre IA e a Empatia demonstra-se como sempre: relevante.

O slide de Nuno Guerreiro, Principal Research Scientist da Sword Health, sobre o MindBench reforça a centralidade do utilizador no workflow de avaliação e testagem.

  • Perante casos de simulação: O MindBench propõe avaliar os modelos usando simulação de utilizadores e LLM-as-a-Judge para medir a sua performance em termos de comunicação e coerência.
  • O Foco na Conversa: Um dos slides focou no mental health support beyond conversational therapy. Isto sublinha que a IA não é apenas uma ferramenta, mas um ponto de contacto emocional e sensível. A Persona (o tom, a empatia, a segurança) do Agente é um problema de Design, e não de Engenharia.

Onde se encontra a Substância de tudo isto?

O User Experience Designer / Product Designer é peça fundamental para ajudar a que os dados, modelos, agentes e todo respetivo código: em valor. Sem um workflow robusto de Evals (desenvolvimento e produção) e foco na experiência humana, o produto AI não sobrevive.

15 novembro 2025


João Lima

→ UX Design Guru at Critical TechWorks - BMW Group → uiux.pt Founder → UX Teacher

Leave a Reply