Perguntas Frequentes
O que é um LLM?
Um LLM ("large language model") é um modelo que emprega inteligência artificial (IA) para processar, compreender e gerar texto em linguagem natural. Pode ser utilizado como um componente em vários tipos de sistemas, tais como sistemas de diálogo e chatbots, sistemas de pesquisa, sistemas automáticos de resposta a perguntas, etc.
O LLM português será equivalente ao ChatGPT?
Não. O ChatGPT é, antes de mais, uma aplicação sobre um LLM (tipicamente uma das versões da família GPT) desenvolvida pela OpenAI. Portanto, não devemos comparar diretamente o ChatGPT (uma aplicação) com o AMALIA (um LLM). Para além disso, os modelos da família GPT são fechados, desenvolvidos internamente pela OpenAI e têm como objetivo responder a questões genéricas. Não são conhecidas as características técnicas do LLM nem o conjunto de dados em que foi treinado. Em contraste, o LLM português será um modelo aberto, disponibilizado publicamente, que terá associado um model card (contendo informação sobre as características do modelo e os dados em que foi treinado). Dessa forma, toda a comunidade poderá usufruir e contribuir para melhorar o modelo no futuro.
Porque é importante ter um LLM português?
Os sistemas atuais, como o ChatGPT, são otimizados para a língua inglesa e cultura anglo-saxónica, apresentando um desempenho fraco no processamento e geração de texto em língua portuguesa. São em geral incapazes de distinguir as diferentes variantes da língua (como o português europeu e o português do Brasil) e de reconhecer elementos da cultura lusófona. Há, portanto, uma dimensão cultural subjacente ao projecto AMALIA: por um lado, contribui para a promoção da língua portuguesa, aumentando a sua relevância no contexto global, e, por outro lado, para a preservação da nossa cultura e das suas especificidades.
Quem é a equipa de desenvolvimento?
A equipa é composta pela Universidade NOVA de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho e pela Fundação para a Ciência e Tecnologia (Arquivo.PT). Atualmente, estão envolvidas cerca de 30 pessoas no desenvolvimento do modelo de base. Nos domínios específicos estão envolvidas cerca de mais 30 pessoas. Os perfis variam desde professores e investigadores seniores até investigadores juniores.
O desenvolvimento de um projeto como o AMALIA exclusivamente por entidades públicas e centros de investigação nacionais demonstra o talento existente em Portugal nas áreas ligadas à inteligência artificial. Este projeto representa uma oportunidade estratégica para explorar e articular competências nacionais, criando sinergias entre instituições com mérito científico e tecnológico reconhecido internacionalmente. A criação de um modelo de linguagem de grande escala (LLM) com base nacional é possível graças à colaboração entre entidades que se destacam no panorama internacional, tanto pela sua investigação como pela capacidade de inovação. Este esforço conjunto contribui para reforçar a autonomia estratégica de Portugal e reduzir a dependência de soluções tecnológicas estrangeiras em domínios críticos.
Qual a infraestrutura tecnológica?
Para levar a cabo o treino dos modelos, estamos a recorrer a infraestrutura computacional em grande escala, utilizando-se para o efeito supercomputadores nacionais (Mare Nostrum 5, Deucalion) e infraestrutura europeia (EuroHPC), que são também projetos financiados pelo governo português.
Qual o volume de dados/parâmetros que será utilizado para treinar o modelo?
Estão planeadas duas fases de desenvolvimento. Numa primeira fase, o modelo está a ser desenvolvido com cerca de 9 mil milhões de parâmetros (“billions”) pré-treinado em 4 biliões de palavras (“trillions”) e afinado num conjunto de dados em português extraídos e filtrados a partir do Arquivo.PT. Para o efeito, serão combinados dois modelos base já desenvolvidos pela equipa do projeto, o EuroLLM e o GlorIA. Numa segunda fase de desenvolvimento, o modelo será expandido para incluir outras modalidades além de texto e serão utilizadas mais fontes de dados.
Será possível treinar o modelo para evitar potenciais enviesamentos? Como evitar que o modelo apresente conteúdos perigosos?
Sim. Estão a ser utilizadas técnicas de alinhamento para reduzir potenciais enviesamentos e evitar que o modelo apresente conteúdos perigosos. No entanto, é importante realçar que o sistema poderá apresentar por vezes respostas incorretas às questões apresentadas, como acontece com qualquer LLM, pelo que deverá haver um “disclaimer” que as respostas são geradas a partir de um sistema de IA e não por um ser humano.
Como será possível assegurar a propriedade intelectual dos conteúdos?
Durante o pré-treino foram utilizados dados abertos, maioritariamente da Web, de redes sociais, e, conteúdos com maior qualidade linguística. Sendo um projeto público, desenvolvido em ambiente de investigação e seguindo um modelo de código aberto, os trabalhos de desenvolvimento, tal como têm sido realizados, encontram-se ao abrigo da legislação em vigor. Realça-se que este desenvolvimento tem respeitado os direitos de autor dos dados utilizados para o treino do modelo – ou seja, dados que referem explicitamente que não devem ser utilizados para desenvolvimento técnico-científico foram excluídos do treino. Há, também, um trabalho que está a ser continuamente a ser desenvolvido a nível legal, para assegurar este respeito pelos autores e a sua propriedade.
Qual a cronologia de implementação?
O projeto tem um tempo total de execução de 18 meses. Numa primeira fase procedeu-se ao treino do modelo com dados em português, tendo sido disponibilizada internamente, para testes e desenvolvimento, uma versão beta em abril de 2025. Esse modelo está a ser constantemente evoluído, protegido com “guardrails” e técnicas de segurança, para ser depois gradualmente disponibilizado em serviços selecionados pelo governo. Em setembro de 2025, foi disponibilizada uma versão em desenvolvimento do modelo, baseada numa plataforma para investigadores, professores e alunos universitários portugueses – a IAEdu - via uma API. A disponibilização desta versão, numa plataforma de investigação, é de acentuada importância, uma vez que vai permitir o desenvolvimento do modelo com uma participação e interação cada vez mais próximas da utilização real – são encorajados comentários, sugestões ou outros tipos de contributos que possam ajudar na melhoria do modelo. Numa segunda fase proceder-se-á à criação de um modelo multimodal capaz de processar também imagens, com finalização prevista no primeiro semestre de 2026.
Como será assegurado o alinhamento com o contexto regulatório do AI Act? Na escala de risco do AI Act, qual será o potencial risco deste modelo?
No âmbito do EU AI Act, o modelo será considerado como General Purpose AI sem risco sistémico. O risco estará associado aos domínios onde for aplicado sendo assumido pelos respetivos utilizadores ou fornecedores.
Quais os impactos diretos na sociedade?
Estamos a viver um ponto de viragem nas sociedades modernas. Tal como a Web em meados da década de 90, a IA generativa está a transformar todas as sociedades. É importante posicionar Portugal na vanguarda da inovação e da transformação digital que se apresenta como uma oportunidade ímpar para o país. Portugal tem investido em redes de investigação de excelência que estão a dar fruto e que devem continuar a ser alargadas. Portugal pode tornar-se um importante hub internacional na área, tirando partido das várias vantagens estratégicas do país. Por isso, o LLM português contribuirá diretamente para a construção de um ecossistema científico e tecnológico na área de IA generativa em Portugal, que se traduzirá em avanços científicos e com impacto económico. Ao mesmo tempo, sendo disponibilizado de forma aberta, permitirá aos cidadãos, empresas e administração pública o desenvolvimento de soluções de IA em português de Portugal, com um nível superior ao de outros modelos.
Porque é que um modelo de linguagem do tipo do AMALIA é importante para Portugal e para a economia?
O AMALIA representa um passo importante na capacitação nacional na área de IA. É importante que Portugal tenha instituições que criem ecossistemas de conhecimento, talento e inovação científica para liderar os avanços realizados na área. Atualmente, os novos modelos de IA estão a transformar várias áreas da sociedade e representam um desafio e uma oportunidade para Portugal e para a Europa. A Europa e Portugal devem liderar esta revolução tecnológica, estando já em curso várias iniciativas na Europa para desenvolver LLMs soberanos. Alguns dos exemplos são:
- Espanha (ALIA, Salamandra)
- Alemanha (OpenGPT-X, Teuken)
- Polónia (pllum)
- Holanda (GPT-NL)
- Dinamarca (Munin)
- Suiça (Apertus).
Como pode o cidadão, as empresas, a administração pública e academia aceder ao LLM?
O LLM português será disponibilizado num repositório público como um modelo aberto, podendo ser acedido, utilizado e melhorado por qualquer pessoa.
Quais os casos práticos onde o LLM nacional pode ser utilizado? No futuro, onde podemos utilizar o LLM nacional?
O objetivo do AMALIA passa pela melhoria da posição da língua portuguesa no ecossistema global de Inteligência Artificial. Os casos de uso iniciais irão focar-se nas áreas da educação, história e cultura e administração pública. No entanto, o modelo será disponibilizado de forma aberta, pelo que poderá ser utilizado e melhorado por cientistas e equipas de desenvolvimento em qualquer plataforma.
Qual o modelo de evolução e manutenção previsto, após a conclusão do projeto? É possível estimar um custo?
O projeto seguirá uma política de código e dados abertos. Deste modo, qualquer entidade poderá replicar ou criar livremente derivações do modelo. A evolução e a manutenção do modelo estarão sempre associadas à escala dos dados, à dimensão do modelo e às tarefas de treino. Os custos de manutenção dependerão destes fatores.
Atualmente, quais são as capacidades do modelo AMALIA, quais as suas características principais?
O modelo foi treinado em dados de língua portuguesa e tem capacidade para responder a perguntas e conversar sobre diversos temas, gerar código, explicar conceitos, sumarizar textos, etc. O modelo tem também conhecimento geral sobre a cultura portuguesa. Serão realizadas regularmente tarefas de "benchmarking" comparativamente com outros modelos públicos, com o objectivo de que o modelo melhore o seu desempenho progressivamente.
Está previsto no roadmap o desenvolvimento de algum interface que permita ao cidadão comum interagir diretamente com o AMALIA?
Está previsto que o AMALIA sirva de suporte a várias aplicações da Administração Pública. O portal gov.pt será um dos seus primeiros casos de uso. Embora seja possível do ponto de vista de engenharia criar uma aplicação generalista do tipo chatbot, não é objetivo do projeto AMALIA desenvolver uma aplicação concorrente dos chatbots generalistas disponíveis comercialmente.
Quando se prevê a conclusão do projeto?
O calendário do projeto prevê a sua conclusão em junho de 2026, altura em que o modelo deverá estar disponível numa versão final robusta e pronta a ser utilizada em larga escala.