IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

O Grupo de Surdez do BioFIG-FCUL, coordenado por Graça Fialho, já analisou cerca de 400 famílias portuguesas afetadas com surdez hereditária. A primeira tese de doutoramento realizada em Portugal na área da genética da surdez foi defendida em 2012, na UL, por Tiago Matos.

Anfiteatro da FCUL

Cerca de 100 alunos de 15 escolas secundárias da zona de Lisboa participaram na 9.ª edição da ação de divulgação da Física de Partículas.

“Portugal é o principal destino dos estudantes brasileiros de graduação bolsistas do Programa Ciência sem Fronteiras.

“Acho que este tipo de ações é bastante útil porque, nesta altura, precisamos de todas as informações possíveis para podermos fazer uma escolha certa”, declara Maria Buzaglo, aluna do 12.º ano, a frequentar o curso de Ciências e Tecnologias na Escola Secundária de Pedro Nunes.

Alunos no átrio do C3

O Gabinete de Mobilidade, Estágios e Inserção Profissional organizou uma sessão de acolhimento aos cerca de 30 novos alunos de mobilidade para o 2.º semestre.

Em 2000, a UL atribuiu o título de doutor honoris causa a Laurens de Haan. Em 2013, outro gigante dos Extremos, Ross Leadbetter, honrará a UL ao aceitar a mesma distinção. Quando a universidade honra investigadores desta importância está também a honrar-se.

O Departamento de Matemática da FCUL e o CMAF organizam dois mini-cursos de Sistemas Dinâmicos de 17 a 24 de Abril 2013. Os oradores serão Rafael Ortega da Universidade de Granada e Pedro Miguel Duarte do DM da FCUL.

Gulf Labor Markets and Migration Program (GLMMP), a joint program of the European University Institute (EUI - Florence) and the Gulf Research Center (GRC - Jeddah, Geneva, Cambridge), seeks two Research Assistants (Demographer/Statistician and Lawyer).

Rosto de Vanda Brotas

Estudar a clorofila, único parâmetro biológico visível do espaço, constitui uma ferramenta essencial para se perceber se o clima está a mudar. Este artigo foi publicado no jornal "Público" no passado dia 16 de fevereiro.

Servidor da FCUL

As ações de modernização e de alargamento do Centro de Dados da FCUL ocorreram no verão de 2012. A Unidade de Informática continua a apostar na renovação das condições tecnológicas do campus.

Ilustração de animais

A Âncora Editora define-se como uma editora generalista, que tem vindo a dedicar-se, sobretudo, à publicação de autores portugueses. Até agora A. M. Galopim de Carvalho é o autor com o maior número de livros editados.

O projecto de investigação NAADIR que envolve a Faculade de Arquitectura da Universidade Técnica de Lisboa e a Faculdade de Ciências da Universidade de L

Átrio do C6

Para os SASUL ainda é prematuro avaliar o Programa Alimentação UL, cujo orçamento se estima ser na ordem dos 192.000,00 €.

Iain Mattaj, diretor-geral do EMBL

“Estou impressionado com a energia que existe na Faculdade e o número de pessoas que aqui trabalham. Acho que estão bem organizados para trabalhar em equipa!”, declara Iain Mattaj, diretor-geral do European Molecular Biology Laboratory, depois de visitar alguns dos laboratórios da FCUL.

Logotipo da inicativa Programa Alimentação UL

O Menu Estudante custa 2,40€ e inclui sopa, prato principal, sobremesa, pão e bebida. A partir de fevereiro o Espaço Estudante, localizado no edifício C6, também vai dispor de micro-ondas permitindo dessa forma o aquecimento de refeições.

Ester Luísa Rodrigues Dias, professora jubilada do extinto Departamento de Educação da FCUL, faleceu no dia 11 de fevereiro de 2013.

As ações de formação e de sensibilização em segurança e saúde do trabalho procuram divulgar conhecimentos teóricos e práticos de maneira a prevenir acidentes de trabalho e doenças profissionais, permitindo também  intervenções eficazes e eficientes em casos de emergência.

Sala de aula com alunos sentados e tomando notas

"Os estudantes da FCUL, incluindo os estudantes de licenciatura, dispõem do background e conhecimentos certos para participar nestes módulos", esclarece Nathalie Gontier, coordenadora do laboratório AppEEL e das respetivas Escolas de Inverno e de Verão.

Rosto de Vera Carvalho

As inscrições para o programa Erasmus terminam a 10 de fevereiro. Se tens interesse neste programa de mobilidade conhece a história de Vera Carvalho, aluna Erasmus na Dinamarca.

Pormenor de obra de arte

Para os fundadores do AppEEL, este laboratório pode ser considerado o primeiro centro no mundo a reunir investigadores que estudam a evolução sociocultural a partir das teorias que formam parte da Síntese Expandida.

 

O Departamento de Matemática recebeu ontem, dia  4 de Fevereiro, cerca de 70 alunos (9º ano) do  Agrupamento de Escolas D. Miguel de Almeida - Abrantes.

Entre os empregos mais bem pagos contam-se os que estão ligados às engenharias.

Páginas