IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

A iniciativa é gratuita, mas implica prévia inscrição.

Na sequência da publicação do 

O artigo “Hazard potential of volcanic flank collapses raised by new megatsunami evidence” é publicado online a 2 de outubro de 2015, na Science Advances, uma nova revista do grupo editorial Science e reacende o debate que dura há algumas d&ea

A Biblioteca de Ciências alerta para a necessidade de salvaguardar informação guardada na área do atual serviço.

A propósito do quarto aniversário da morte do P.

O Dia Europeu das Línguas celebra-se a 26 de setembro.

André Borges e João Gomes

De manhã tínhamos quatro horas de aulas de mandarim e depois do almoço, seguia-se o programa cultural, que consistia em aulas e visitas programadas de forma a permitir uma melhor compreensão da realidade chinesa.

A obra, editada em 2015 pela Lambert Academic Publishing, é apresentada ao público na Reitoria da ULisboa.

A AGRINATURA é uma associação que reúne 30 universidades e unidades de investigação europeias.Todos os seus membros desenvolvem sinergias e mobilizam recursos para acompanhar os projetos que estão a decorrer em todo o mundo. 

INForum - Simpósio de Informática

Radu Onica, aluno de mestrado do Departamento de Informática (DI) da Faculdade de Ciências ULisboa e membro do LaSIGE, venceu o Prémio Melhor Artigo do INForum - Simpósio de Informática.

O Instituto Nacional de Saúde Doutor Ricardo Jorge (Instituto Ricardo Jorge), Departamento de Epidemiologia e Departamento de Doenças Infeciosas, abriu Concurso para a atribuição de uma Bolsa de Investigação Científica – 1

Henrique Leitão

Este é o terceiro prémio atribuído à exposição “360º Ciência Descoberta”, organizada pela Fundação Calouste Gulbenkian e comissariada cientificamente por Henrique Leitão, investigador de Ciências ULisboa.

Encontram-se a decorrer vários procedimentos concursais, para técnico superior, para o Instituto da Conservação da Natureza e das Florestas (ICNF).

A atividade tem como objetivo consolidar os conhecimentos dos docentes relacionados com os sistemas de numeração, os algoritmos do cálculo elementar e o conceito de logaritmo.

“Com um simples azulejo” é uma iniciativa do Departamento de Matemática da Faculdade de Ciências ULisboa dirigida a alunos dos 1.º e 2.º ciclos do ensino básico e visa explorar transformações geométricas no plano.

Pedro J. Freitas

António Bivar, Pedro J Freitas e Rogério Martins são alguns dos oradores do

A biblioteca do C4 reabre dia 9 de setembro, com o seguinte horário das 9h00 às 17h00. A partir dessa data também a biblioteca do C8 passa a ter o horário habitual das 10h00 às 17h00. Com o iníci

As fichas de inscrição estão disponíveis no site da faculdade e devem ser enviadas por email até dia 16 de setembro. 

Inscrições 2015/2016

A candidatura à 2.ª fase do concurso nacional de acesso termina a 18 de setembro.

Marta C. Lourenço

O projeto Riscar o Mundo conta com uma equipa interdisciplinar portuguesa e brasileira, incluindo investigadores da Faculdade de Ciências da ULisboa.

A Faculdade de Ciências da ULisboa e a PME portuguesa HF, Higher Functions - Sistemas Informáticos Inteligentes fazem parte do consórcio.

A Unidade de Epidemiologia do Instituto de Medicina Preventiva e Saúde Pública da Faculdade de Medicina da Universidade de Lisboa pretende recrutar um Estatístico para integrar a equipa de investigação na área da saúde e de

A energia fotovoltaica e as suas aplicações estiveram em foco em mais uma iniciativa destinada a comemorar o Ano Internacional da Luz. O ciclo Noites de Ciências, Noites de Luz continua em setembro.

Páginas