IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?
Equipa do projeto 'Ciências em Harmonia'

Esta terça-feira, 28 de maio, o projeto ‘Ciências em Harmonia’ assinalou o seu primeiro ano de atividades: um marco comemorado com um convívio informal com a comunidade, que

António Branco

António Branco, docente do Departamento de Informática de CIÊNCIAS, foi um dos oradores convidados da conferência que

Sabemos que no futuro um sismo de magnitude significativa voltará a atingir Lisboa. Não sabemos é quando. E se o pudéssemos prever? E se existisse uma probabilidade forte de ser já em 2027?

Ana Santos, finalista 3MT ULisboa

Ao longo dos próximos dias, daremos a conhecer os quatro finalistas de CIÊNCIAS que irão participar na final da competição

Painel e sessão de Perguntas & Respostas | Estreia de documentário

Perto de 120 pessoas assistiram este sábado, 25 de maio, à estreia do documentário ‘O que se esconde na luz? A ciência da missão espacial Euclid’, produzido pelo Instituto de Astrofísica e Ciências do Espaço (IA).

Investigadores do Instituto Dom Luiz, de CIÊNCIAS, instalaram um sismómetro na Escola Básica Professor Delfim Santos, que se encontra a menos de um quilómetro do Estádio da Luz, em Lisboa, onde vão ter lugar os concertos.

Banner Bênção de Finalistas & Queima das Fitas 2024

Este fim de semana a Alameda da Universidade de Lisboa vai voltar a encher-se de finalistas de CIÊNCIAS e de tantas outras faculdades e universidades. A cerimónia de Bênção de Finalistas decorre amanhã dia 25 de maio, a partir das 11h30.

 

3MT ULisboa 2024

Quatro dos doze finalistas da competição ‘Três Minutos de Tese – Universidade de Lisboa’ são de CIÊNCIAS.

Pinguins-de-adélia

Num artigo agora publicado na Science, investigadores de instituições de renome a nível mundial propõem uma estratégia para envolver todas as partes interessadas na governança do Oceano Antártico através de um processo de ordenamento do espaço marinho (OEM) inteligente do ponto de vista climático.

Impressão artística da missão Euclides no espaço.

A 25 de maio (sábado), às 21h00, vamos ver e compreender as novas imagens de entre as maiores alguma vez feitas do Universo, no Grande Auditório de CIÊNCIAS (Edifício C3). A entrada é livre.

Redes Doutorais Marie Curie Projeto PROMOTE

CIÊNCIAS vai participar numa das propostas vencedoras do concurso 2023 das Redes Doutorais de Ações Marie Skłodowska-Curie (MSCA DN).

Foto de entrega de prémio aos vencedores

No âmbito do projeto Invasives e como atividade inserida na

Dia Nacional dos Cientistas - 16 de maio

O Dia Nacional dos Cientistas foi instituído em 2016 por Resolução da Assembleia da República com o objetivo de reconhecer e celebrar a contribuição vital dos cientistas para o progresso da sociedade.

CIÊNCIAS e OKEANOS em parceria para monitorizar biodiversidade e alterações dos ecossistemas marinhos

Projeto internacional SEAGHOSTS visa a monitorização e conservação das populações de painhos, as aves marinhas mais pequenas do planeta.

Reitoria da ULisboa

O CWUR 2024 avaliou de entre 20.966 instituições de ensino superior e atribuiu à ULisboa o 211.º lugar (top 1.1%) e a 80.ª posição no panorama europeu.

Fotografia de participantes na Training School

CLEANFOREST na vanguarda da compreensão dos efeitos dos extremos climáticos e poluição nas florestas Europeias

Participantes no Dia Aberto

O campus ganhou vida, cor e energia proveniente do entusiasmo dos cerca de 2000 alunos de 170 escolas de norte a sul do País.

CIÊNCIAS esteve presente nesta edição, com a participação dos docentes do Departamento de Física: Alexandre Cabral, no painel de abertura “À conversa sobre carreiras espaciais” e

Semana Internacional da Compostagem

Uma das transformações necessárias às entidades que querem progredir pelo caminho da sustentabilidade é fecharem os seus ciclos de materiais, nomeadamente o orgânico.

A VicenTuna - Tuna da Faculdade de Ciências da Universidade de Lisboa - completou 30 anos em janeiro de 2024. Para comemorar, realizou no dia 30 de abril de 2024, a Festa da Primavera, um espetáculo de música e divertimento dedicado à comunidade de CIÊNCIAS e ao público em geral.

Celebrações dos 50 anos do 25 de abril de 1974 da Academia das Ciências de Lisboa

A 9 de maio realiza-se a segunda de duas jornadas de debate académico e científico organizadas pela Academia das Ciências de Lisboa, que tem por objetivo ‘analisar e discutir a evolução do panorama científico português de forma prospetiv

Lançamento do projeto Barrocal-Cave marca um novo capítulo na Conservação da Biodiversidade em Portugal

O prestigiado Palácio Gama Lobo foi o cenário escolhido para o lançamento do projeto Barrocal-Cave, financiado pelo Prémio Fundação Belmiro de Azevedo 2023.

No passado dia 10 de abril, tivemos a honra de receber um grupo de estudantes e dois professores da Universidade de Leiden, na Holanda. Com um total de 40 estudantes, todos da área das bio farmacêuticas, a visita prometia ser entusiástica.

Páginas