IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?
Rui Agostinho

À 1h00m de 1/Julho na Madeira e Continente, ou 23h59m de 30/Junho nos Açores, preste atenção ao relógio do OAL pois o dia terá 86401 segundos em vez dos habituais 86400 s = 24 h x 3600 s/h.

A Direção Geral de Estatísticas da Educação e Ciência abriu dois procedimentos para atribuição de seis bolsas de gestão de ciência e tecnologia nas áreas científicas de Estatística, 

Trabalho de campo

Esta iniciativa marca uma etapa significativa no ensino e na investigação nas áreas do petróleo e do gás em Portugal. Esta formação avançada pode conferir equivalência ao primeiro ano de um programa doutoral, abrindo assim possibilidade de desenvolvimento de temas de investigação em colaboração com a indústria.

“Olhó Peixe Fresquinho!”

Os trabalhos escolares realizados no âmbito deste projeto educativo vão estar em exibição no Mercado de Alvalade Norte entre 20 e 28 de junho. A partir de julho o projeto abre-se à sociedade, com visitas a realizar no âmbito da Ciência Viva no Verão.

A GEOMETRAL está a comemorar os seus 30 anos de existência, sendo hoje uma empresa consolidada nos seus sectores de actuação!

24 de junho às 14:30 na sala 6.2.38

Existência e caracterização de ground-states para sistemas de equações de Schrõdinger semilineares acopladas - Simão Correia

Os astrónomos preveem novas observações para estudar a galáxia CR7 de modo a procurar e identificar outros exemplos destas galáxias nunca antes vistas.

As candidaturas ao programa decorrem até 3 de julho e as atividades começam no dia 20 , prolongando-se até dia 24 do mesmo mês.

“Dada a crescente necessidade de pessoal formado na área da Informática, consideramos o evento importante para tentar sensibilizar os jovens para esta área do conhecimento”, explica o professor do Departamento de Informática, Fernando Ramos.

 

A MARE STARTUP, para além de ser expositor no Blue Business Forum, aproveitou este acontecimento de dimensão internacional para lançar a pós-graduação Sea Science and Business Administration.

Modelo molecular da 4F-PBP

O trabalho desenvolvido pelos investigadores da Faculdade de Ciências da Universidade de Lisboa, em colaboração com a Polícia Judiciária, foi publicado recentemente na revista da especialidade Forensic Science International.

O evento de entrada livre deverá proporcionar uma visão geral do programa do ESO, incluindo alguns dos resultados científicos mais recentes.

SAHFC

A Comissão Executiva da Secção Autónoma de História e Filosofia das Ciências (SAHFC) atribui anualmente o Prémio SAHFC.

Esta conferência destina-se a apresentar alguns dos mais recentes desenvolvimentos na classificação de superfícies algébricas e é uma ocasião para celebrar o sexagésimo aniversário de Margarida Mendes Lopes, cuja contr

Candidaturas à escolha de ramo em Geologia

“Trabalhar enquanto investigador envolve alturas más e boas, como em tudo...”, comenta Pedro Ferreira, um dos vencedores da Worldwide Academic Competition 2015 e responsável pelo desenvolvimento de metodologia inovadora no diagnóstico e tratamento do cancro da mama.

Na sequência do Concurso para o desenvolvimento de uma aplicação para sistemas móveis (App), no âmbito da Iniciativa “iGEO– Mentes Criativas”, promovido pela Direção-Geral do Território (DGT) e pela Fundação Lus

De 6 de junho a 4 de julho de 2015 a Biblioteca do C4 vai estar aberta aos sábados das 9h00 às 17h00, à exceção do Dia de Santo António.

O Professor Armando Machado vai dar uma lição intitulada ‘A perspectiva em geometria’ na próxima quinta-feira dia 4 de Junho pelas 14h na sala 6.2.45.

A Unidade de Epidemiologia do Instituto de Medicina Preventiva e Saúde Pública da Faculdade de Medicina da Universidade de Lisboa encontra-se a recrutar candidatos para a função de

A Nortempo empresa multinacional ibérica que aposta num portefólio de serviços de recursos humanos alargado, está a recrutar um Técnico de Risco (M/F)  para empresa na áre

A Nortempo empresa multinacional ibérica que aposta num portefólio de serviços de recursos humanos alargado, está a recrutar um Técnico de Risco (M/F)  para empresa na área da Banca.

As Noites de Ciências, Noites de Luz propõem atividades gratuitas e interativas - com sessões de perguntas/respostas após cada palestra -, transmitidas em direto pela Internet. O ciclo iniciado em abril, continua em maio e nos meses seguintes.

No âmbito das acções de divulgação científica e de promoção do DI-FCUL, os professores visitaram a 28 de Maio a Escola Secundária D. Dinis, em Lisboa, para dias palestras intituladas respectivamente  "Robôs Móveis, por fora e por dentro" e "Quem roubou a minha identidade digital?".

Páginas