Iniciamos o artigo reconhecendo que a onda de entusiasmo da Inteligência Artificial está a ceder lugar à realidade pesada da execução. Onde anteriormente se falava de modelos de IA milagrosos, agora fala-se de métricas de avaliação e de testes de deploy.
O Designer de Produto é o pivô nesta transição.
No evento Sword AI Summit, a 15 novembro de 2025, a mensagem foi clara: o futuro do desenvolvimento de sistemas com IA não reside na habilidade de gerar mas sim nas robustez dos sistemas de avaliação (Evals) e a sua habilidade de responder ao contexto humano. A usabilidade e o UX são o “cérebro” que transforma o modelo têcnico em produto de sucesso.

A Matriz de Dados: Porque o UX não pode viver de “Web Scraps”
O slide da “Pirâmide de Dados para Robôs Generalistas” de Teresa Conceição da NVIDIA é uma metáfora poderosa para a qualidade do produto.
- O Problema da Base: A maioria dos LLMs – Large Language Models é treinada em Web Data (Web Crawl, Reddit, YouTube) – dados vastos, brutos, mas de baixa qualidade, não estruturados e passivos. Isto cria modelos generalistas que são bons a falar, mas maus a agir no mundo real.
- O Valor do Real-World Data (RWD): Para construir Agentes que tomam decisões complexas (Generalist Robot), é preciso Real-World Data (alto custo, 24h/Robot/Dia), que é a camada mais alta da pirâmide.
O UX Designer tem de ser o alavanca da produção de agentes ricos em RWD. Se queremos que a IA entregue valor real e tome decisões de segurança/contexto, precisamos de datasets que reflictam comportamento humano, erros, e interações complexas. O UX é o Input de qualidade para o Output de qualidade.

LLMs As A Judge: Medir o Não-Determinístico
A grande rutura na engenharia é a forma de testar.
- O Determinismo Vs. Não-Determinismo: Testar software tradicional é determinístico (o output para o input X é sempre Y). Os LLM Agents são não-determinísticos (múltiplos outputs são possíveis).
- O Desafio da Avaliação: Como se mede a “qualidade” ou “usabilidade” de algo que não é 100% previsível? As métricas técnicas (Unit Tests, Code-Based Evals) já não bastam.
Aman Khan, AI Product Management na Arize AI, destacou métricas de Produção centradas no humano:
- LLM as a Judge: O próprio modelo avalia a coerência, a relevância e o tom de outros outputs.
- Business Metrics (Métricas de Negócio): Onde o Designer de Produto assume a liderança – Frustrated Users (NPS), Revenue from LLM, Time Spent. Isto significa que a equipa de UX/Produto tem de definir as métricas de sucesso do Agente.

A ponte entre IA e a Empatia demonstra-se como sempre: relevante.
O slide de Nuno Guerreiro, Principal Research Scientist da Sword Health, sobre o MindBench reforça a centralidade do utilizador no workflow de avaliação e testagem.
- Perante casos de simulação: O MindBench propõe avaliar os modelos usando simulação de utilizadores e LLM-as-a-Judge para medir a sua performance em termos de comunicação e coerência.
- O Foco na Conversa: Um dos slides focou no mental health support beyond conversational therapy. Isto sublinha que a IA não é apenas uma ferramenta, mas um ponto de contacto emocional e sensível. A Persona (o tom, a empatia, a segurança) do Agente é um problema de Design, e não de Engenharia.
Onde se encontra a Substância de tudo isto?
O User Experience Designer / Product Designer é peça fundamental para ajudar a que os dados, modelos, agentes e todo respetivo código: em valor. Sem um workflow robusto de Evals (desenvolvimento e produção) e foco na experiência humana, o produto AI não sobrevive.
15 novembro 2025


