IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

Os três eixos estratégicos – Learning, Selection e Evolution – apoiam de forma estruturada a transferência do conhecimento em Ciências ULisboa e incentivam a criação de spin-offs ou o licenciamento de tecnologias.

​“Born small, die young: Intrinsic, size-selective mortality in marine larval fish” foi publicado online na Scientific Reports.

O que fazem e o que pensam alguns membros da comunidade de Ciências?

Bolhas de ar e películas líquidas são de grande importância em áreas tão diversas como as indústrias mineira, transformadora e alimentar e a segurança de materiais, tendo ainda aplicações potenciais em micro e nanotecnologias.

Os estágios irão ocorrer na Alemanha, Espanha, Estados Unidos da América, França, Moçambique e Suécia.

O “Contact Making Event - Farming With Young People" superou as expectativas que levávamos na bagagem. Para além das importantes ferramentas que descobrimos (Erasmus+, dinâmicas de grupo…) e dos novos contactos que fizemos, as éticas e os princípios da Permacultura foram partilhados com todos.

O Arquivo.pt é uma nova ferramenta de suporte à investigação em diversas áreas científicas, como a Sociologia, História ou Comunicação.

A iniciativa foi dinamizada pela professora Suzana Nápoles e contou com a presença de 22 alunos do ensino básico.

O sismo foi registado pelas estações sísmicas do Instituto Dom Luiz.

Anualmente são analisadas pelo Núcleo de Planeamento, Avaliação e Gestão da Qualidade cerca de 800 disciplinas, dos vários cursos da nossa Faculdade.

O mestrado em Microbiologia resulta de um consórcio entre quatro escolas da ULisboa.

Ana Bastos, pós-doutorada no Laboratoire des Science du Climat et de L’Environement, em França, começou a investigar este tema durante o doutoramento em Ciências ULisboa.

Os alunos recrutados são dos cursos de Bioinformática e Biologia Computacional, Engenharia Biomédica e Biofísica, Matemática Aplicada e Tecnologias da Informação e Comunicação.

Octávio Pinto

O que fazem e o que pensam alguns membros da comunidade de Ciências ULisboa?

Jonathan Félix Rio Veloso, estudante da licenciatura em Tecnologias de Informação com minor em Biologia, faleceu na noite de 10 de janeiro. O funeral do aluno realiza-se no dia 12 de janeiro, pelas 14h30, na aldeia de Nozelos, situada no concelho de Valpaços.

 "Com um simples azulejo” é uma iniciativa do DM dirigida a alunos dos 1.º e 2.º ciclos do ensino básico destinada a explorar transformações geométricas no plano.

Ciências ULisboa pretende continuar a colaborar na formação académica, bem como no desenvolvimento de programas de investigação comuns e no estabelecimento de equipas que possam concorrer a fundos internacionais.

Entre os dias 9 e 30 de janeiro de 2016 inclusivé, a biblioteca do C4 também está aberta aos sábados das 9h00 às 17h00.

A área que mais gosta são as alterações climáticas e os seus efeitos. Durante estes anos em Ciências ULisboa sente que cresceu como pessoa e cientista. Carlos da Camara e Ana Bastos orientaram o projeto de licenciatura e ficaram surpreendidos com o talento da jovem estudante.

Encontra-se aberto concurso para atribuição de uma bolsa de Gestão Ciência e Tecnologia para licenciados em Estatística ou Matemática.

“Ciência, Prestígio e Devoção: os Jesuítas e a Ciência em Portugal”, editado pela Lucerna, no início de 2015, é a primeira abordagem à história científica dos jesuítas em Portugal nos séculos XIX e XX.

Para Ismael Tereno, investigador do IA e de Ciências ULisboa, é possível rastrear mais de um terço do céu, obtendo dados astronómicos com a qualidade adequada ao sucesso dos objetivos científicos da missão Euclid.

O Piloto 2 veio acrescentar mais informação léxico-semântica aos sistemas de tradução automática para todas as línguas do projeto: português, alemão, checo, búlgaro, espanhol, basco, holandês e inglês.

A última sessão deste ano acontece esta sexta-feira, dia 18 de dezembro, a partir das 20h00, no Grande Auditório da Faculdade, sito no edifício C3, no Campo Grande.

Páginas