IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

De acordo com o comunicado de imprensa emitido pela faculdade esta segunda-feira, para os investigadores a identificação de novos alvos moleculares é essencial para definir estratégias terapêuticas cada vez mais robustas nos doentes com fibrose quística. Entrevista com Carlos Farinha.

Participantes no laboratório

“A Química e os segredos de um chocolate perfeito”, “Olhando os átomos”, “A diversidade escondida dos oceanos: do microscópio ao DNA” e “As bactérias e a resistência a antibióticos” são só alguns exemplos dos projetos disponíveis no âmbito do

A Galeria Ciências é um espaço recente, dinâmico, polivalente, com grandes potencialidades.

José Pica

O que fazem e o que pensam alguns membros da comunidade de Ciências? O sétimo Dictum et factum é com José Pica, assistente técnico do Departamento de Biologia Vegetal de Ciências.

Crónica de Fernando Barriga e Sofia Martins, investigadores do IDL Ciências, em missão oceanográfica no Atlântico - TAG hydrothermal field.

A 2.ª corrida de carros solares tripulados em Portugal ocorre este sábado, 9 de julho de 2016, entre as 10h00 e as 14h00, no campus da Faculdade de Ciências da Universidade de Lisboa.

Gerson Miguel da Silva Lobo, estudante do 2.º ano do mestrado de Bioquímica, faleceu a 26 de junho de 2016. A Faculdade de Ciências da Universidade de Lisboa lamenta o triste acontecimento, apresentando as condolências aos familiares, amigos e colegas do Gerson Lobo.

A gestão das preferências tornou-se numa facilidade ao dispor do projetista e do programador, e o planeamento (relacionado com as ações ao longo do tempo) é capaz de transformar um problema como se de otimização se tratasse, sujeito a restrições, a objetivos múltiplos e a efeitos probabilísticos das ações.

Crónica de Fernando Barriga e Sofia Martins, investigadores do IDL Ciências, em missão oceanográfica no Atlântico - TAG hydrothermal field.

Galopim de Carvalho, um dos geólogos mais famosos de Portugal, natural de Évora, com quase 85 anos, regressa à Faculdade de Ciências da Universidade de Lisboa no próximo dia 27 de junho.

2016 está a ser um ano em cheio para alguns estudantes empreendedores e é essa a essência de que é feita a Júnior Empresa Ciências, que está agora a dar os primeiros passos.

Crónica de Fernando Barriga e Sofia Martins, investigadores do IDL Ciências, em missão oceanográfica no Atlântico - TAG hydrothermal field.

Em Londres, junto a St. Pancras´s International, está próximo de nascer um polo que agrupa a Google (e a DeepMind), o Francis Crick Institute, o Alan Turing Institute e a British Library (…) O arquiteto visa promover interações com serendipidade entre investigadores de terrenos divergentes.

Crónica de Fernando Barriga e Sofia Martins, investigadores do IDL Ciências, em missão oceanográfica no Atlântico - TAG hydrothermal field.

Inês Andrade

O que fazem e o que pensam alguns membros da comunidade de Ciências? O sexto Dictum et factum é com Inês Andrade, assistente técnico do Departamento de Biologia Animal de Ciências.

Um estudo publicado na revista internacional de conservação Oryx indica que a legislação e a proteção nas praias são insuficientes para travar a captura e o consumo ilegal de tartarugas marinhas em Cabo Verde.

Crónica de Fernando Barriga e Sofia Martins, investigadores do IDL- Ciências, em missão oceanográfica no Atlântico - TAG hydrothermal field.

A missão oceanográfica M127 iniciada a 25 de maio, em Bridgetown, Barbados, acontece a bordo do navio oceanográfico alemão RV METEOR e deverá terminar a 28 de junho de 2016, em Ponta Delgada.

José Guerreiro, professor da Faculdade de Ciências da Universidade de Lisboa e coordenador da MARE STARTUP e Sónia Ribeiro, professora da Universidade Católica Portuguesa, apresentam o programa de apoio ao empreendedorismo na área do mar durante a Oceans Business Week.

InovCarbon, Janus e o BreatheBio são os vencedores da segunda edição da Call for Projects do ScienceIN2Business.

Nos últimos anos a saída de quadros superiores seniores e de cientistas de Portugal acompanhou uma grande vaga de emigração, sobretudo para a Europa.

O tema deste ano é “A ciência não é só dos cientistas”.

Se a última Noite de Ciências foi dedicada ao Trânsito de Mercúrio e ao sistema solar, em maio é a vez do bosão de Higgs ganhar destaque.

Alunos da Faculdade agitam no ar fitas de fim de curso

A Alameda da Universidade de Lisboa voltou a encher-se de finalistas de Ciências e de tantas outras faculdades e universidades. Este ano a cerimónia ocorreu no dia 21 de maio de 2016. Para alguns este é um acontecimento especial - é que "há momentos que marcam a vida", por isso mesmo merecem ser recordados.

“A poor international standard for trap selectivity threatens carnivore conservation” - um estudo publicado online a 2 de maio de 2016 na revista “Biodiversity and Conservation” - revela falhas graves nas normas que regulam a legalidade de armadilhas para captura de carnívoros.

Páginas