IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

Novo estudo demonstra pela primeira vez que é possível integrar à escala global os resultados obtidos através dos dois métodos mais utilizados no mundo para avaliar a “saúde” dos ecossistemas a partir dos líquenes que neles se encontram.

A 7.ª cadeira funcionou pela primeira vez no ano letivo de 1840/1841, caracterizando-se pela abordagem histórico-natural das matérias lecionadas que pouco se modificaram ao longo dos anos.

O ESNF2017 é o primeiro simpósio europeu dedicado apenas ao tema nanofluidos. Os organizadores pretendem que este momento fomente a colaboração entre cientistas, engenheiros e empresas.

Está a nascer um laboratório vivo de permacultura (PermaLab) na FCUL, uma zona que convida a implementação de projetos propostos pela permacultura e sua monitorização com metodologias científicas.

Maria Isabel Cordeiro Sevinate Pinto Rebelo Lopes, professora aposentada do Departamento de Biologia Vegetal e ex-membro do antigo Centro de Biologia Ambiental de Ciências, faleceu aos 67 anos, no dia 12 de janeiro de 2017. A Faculdade lamenta o triste acontecimento, apresentando as condolências aos seus familiares, amigos e colegas.

O que fazem e o que pensam alguns membros da comunidade de Ciências? O primeiro Dictum et factum de 2017 é com Ânia Finuras, bolseira de gestão da Área de Comunicação e Imagem de Ciências.

Adaptar para a mudança. Este foi o lema do AdaptForChange, um projeto que teve início em abril de 2015 e que ao longo de quase dois anos contribuiu para um conhecimento profundo do estado das florestas do Alentejo e que culminou com o desenvolvimento do Plano de Adaptação de Mértola às Alterações Climáticas, a implementar nos próximos anos.

Cerca de 2783 árvores, arbustos e herbáceas vão ser plantados no Estádio Universitário, até ao próximo mês de março.

O recente falecimento abre mais uma lacuna na geração dos cientistas e professores que muito contribuíram para o desenvolvimento da Química em Portugal.

Maria Inês Correia Gonçalves Macias Marques, professora aposentada da Faculdade de Ciências da Universidade de Lisboa, faleceu aos 79 anos, no dia 1 de janeiro de 2017. A Faculdade lamenta o triste acontecimento, apresentando as condolências aos seus familiares, amigos e colegas.

Inseridos no Programa de Atividades Conjuntas, do Programa Operacional Competitividade e Internacionalização , o IBEB e o BioISI de Ciências – em conjunto com outros grupos nacionais -, vão explorar o conhecimento acerca do cérebro.

O grupo de investigadores da Masaryk University, na República Checa; da Mykolas Romeris University, na Lituânia; das universidades Politécnica de Madrid e de Oviedo, em Espanha; do Centro de Estudos Geográficos do Instituto de Geografia e Ordenamento do Território e do Instituto Dom Luiz analisaram a evolução da temperatura nas dez estações da Península Antártica desde o início da década de 1950 até 2015.

Através de trabalho de campo detalhado na ilha de Santa Maria, nos Açores, investigadores descobriram elementos importantes para a compreensão da origem e evolução de ilhas vulcânicas.

O projeto RESISTIR iniciou-se em abril deste ano e visa criar até abril de 2019 um sistema de informação - inovador, modular, inteligente e adaptável - para apoiar a tomada de decisão clínica no domínio da vigilância epidemiológica, resistência aos antimicrobianos, controlo de infeção e gestão hospitalar.

O ClimAdaPT.Local coordenado pelo grupo CCIAM do cE3c chegou ao fim.

Ciências é oficialmente membro associado do Laboratório de Instrumentação e Física Experimental de Partículas. Para além disso, em 2017 a sede vai ficar mais próxima dos cientistas desta instituição.

No ensino universitário normal o aproveitamento/rendimento escolar é também motivo de preocupação em muitos países europeus, embora existam países onde esse rendimento se aproxima dos 100%. Em termos económicos, facilmente se percebe que quanto maior for a taxa de aprovação dos alunos, menor a desistência e a reprovação, mais justificadas estão as verbas públicas  (provenientes dos impostos) que o Estado investiu no sector da educação.

“Os valores associados ao desporto são complementares aos que são necessários para o sucesso académico”, diz Matilde Fidalgo, aluna de Ciências e jogadora de futebol da seleção feminina portuguesa.

Antes de se aposentar em 2014 a Ana Monteiro trabalhou na Biblioteca da FCUL durante alguns anos. Ontem, dia 15 de dezembro, faleceu.

Teve lugar a 27 de outubro no Salão Nobre da Reitoria da Universidade de Lisboa (ULisboa) o lançamento oficial do Colégio de Química, o primeiro colégio da ULisboa aprovado na área das Ciências Exatas.

O aumento da temperatura da água leva anfíbios omnívoros a adotar uma dieta mais herbívora. De acordo com o comunicado de imprensa emitido pelo cE3c – Centro de Ecologia, Evolução e Alterações Climáticas, “esta é a primeira vez que é estudada em vertebrados a assimilação de dietas mais ou menos ricas em proteínas em função da temperatura”.

O que fazem e o que pensam alguns membros da comunidade de Ciências? O último Dictum et factum de 2016 é com Paulo Silva, técnico superior do Departamento de Física de Ciências.

O QTLeap—Quality Translation by Deep Language Engineering Approaches chega ao fim, mas a investigação em tradução automática continua. Leia a curta entrevista com António Branco, professor do Departamento de Informática de Ciências e coordenador deste projeto, iniciado em novembro de 2013.

“A Onda da Nazaré: um estímulo para a aprendizagem” é financiado pelo Mecanismo Financeiro do Espaço Económico Europeu (EEA Grants) e explica de forma simples e recorrendo a curtas animações os processos associados à existência da maior onda surfada em todo o mundo. 

O curso de Química Tecnológica celebra em 2017 os 35 anos da saída dos seus primeiros licenciados pelo que as próximas “Jornadas QT” realçarão esta efeméride.

Páginas