IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?
Joana S. Cristóvão e Cláudio M. Gomes

Joana S. Cristóvão estuda uma das mais abundantes proteínas do cérebro - a proteína S100B – com funções regulatórias associadas à resposta inflamatória, apresentando níveis elevados em pessoas com a doença de Alzheimer.

Cláudio M. Gomes

A ciência é global e colaborativa. Quem o diz é Cláudio M. Gomes, professor do DQB e investigador do BioISI. Recentemente, juntamente com outros cientistas descobriu um novo mecanismo bioquímico nas células nervosas, que retarda a formação dos depósitos de agregados de proteína no cérebro, causadores da doença de Alzheimer.

João Pires da Silva

Nesta fotolegenda destacamos uma passagem da entrevista com João Pires da Silva, professor do Departamento de Química e Bioquímica que pode ser ouvida no canal YouTube e na área multimédia deste site.

Comunicar pelo telemóvel

Andreia Santos, psicóloga do Gapsi, menciona a importância de se resgatar a dimensão humana das relações, considerando um elemento muito importante para a sensação de descanso, especialmente em período de férias.

Assembleia Geral da EMS em Praga

Jorge Buescu, professor do Departamento de Matemática de Ciências e presidente da Sociedade Portuguesa de Matemática, foi eleito membro da Comissão Executiva da European Mathematical Society.

Terreiro do Paço em Lisboa

A primeira iniciativa do ciclo Alterações Climáticas: Impactos Biológicos e Socioeconómicos é organizada por Ciências. O próximo evento desta rede ocorre em julho e está a ser preparado pelo Instituto Superior de Agronomia.

Centro Cultural de Montargil, Ponte de Sor

O Centro Ciência Viva do Lousal (CCVL) – Mina de Ciência recebeu o prémio Melhor Projeto Público 2017. A Faculdade é membro associado e fundador da Associação CCVL garantindo a atualização e o rigor dos conteúdos comunicados.

Marta Aido junto ao globo terrestre

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de junho é com Marta Aido, que trabalha no Instituto Dom Luiz.

Novos mapas de risco de incêndios florestais para 2018 resultam de um trabalho conjunto entre engenheiros florestais, estatísticos e climatólogos.

Fotografia do setup experimental

O professor do Departamento de Biologia Vegetal e membro da COST Action FA1306, que chegou agora ao fim, faz um balanço da rede transeuropeia e dá-nos a conhecer o projeto INTERPHENO e que poderá ser o primeiro passo para a constituição de uma rede nacional de fenotipagem.

Torre de pedras

"Associada à ideia de perfeccionismo surge a luta por objetivos elevados e irrealistas". Mais uma rubrica da psicóloga Andreia Santos.

Margarida Amaral

Nesta fotolegenda destacamos uma passagem da entrevista com Margarida Amaral, professora do DQB e coordenadora do BioISI e que pode ser ouvida no canal YouTube e na área multimédia deste site.

“The Medieval and Early Modern Nautical Chart: Birth, Evolution and Use”

Joaquim Alves Gaspar, distinguido em 2016 com uma starting grant, a primeira a ser atribuída a um membro de Ciências, volta a “encantar” o Conselho Europeu de Investigação.

Uma mão com enguias

Ciências organiza a primeira reunião do projeto europeu, na qual participam mais de 50 especialistas portugueses, espanhóis e franceses, com o objetivo de debater formas de recuperação da enguia-europeia.

José Avelino Pais Lima de Faria,o proeminente cientista de 92 anos, antigo aluno de Ciências - licenciou-se em Ciências Físico-Químicas em 1950 - volta colaborar com a Faculdade, com um artigo sobre a atividade científica, selecionando para o efeito um conjunto de eminentes personalidades. Dois dias após a publicação deste artigo, J. Lima-de-Faria faleceu. A Faculdade lamenta o triste acontecimento e apresenta as condolências aos familiares, amigos e colegas.

Oradores do Ignite IAstro na Assembleia da República

No âmbito da efeméride ocorreu uma sessão do Ignite IAstro na Assembleia da República. O Dia Nacional dos Cientistas é celebrado desde 2016.

Grande auditório

A nova direção de Ciências para os próximos quatro anos tomou posse a 15 de maio de 2018. Luís Carriço é o novo diretor e a sua equipa conta com cinco subdiretores: Margarida Santos Reis, Fernanda Oliveira, Jorge Maia Alves, Hugo Miranda e Pedro Almeida.

Logotipo

A final nacional da 14.ª edição das Olimpíadas de Química Júnior ocorreu a 12 de maio no Departamento de Química e Bioquímica de Ciências. Os melhores classificados podem vir a integrar a equipa portuguesa que participará na European Science Olympiad, em 2019.

Pint

O Pint of Science traz para bares portugueses e internacionais assuntos científicos de forma descomplicada.

Beatriz Lampreia

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de maio é com Beatriz Lampreia, assistente técnica do Instituto de Biofísica e Engenharia Biomédica.

Marés

Investigadores de Ciências identificaram um novo ciclo global de marés que ocorre ao longo de grandes escalas de tempo geológico.

Sara Silva

Sara Silva, investigadora do Departamento de Informática, do BioISI – Instituto de Biosistemas e Ciências Integrativas e investigadora convidada da Universidade de Coimbra, ganhou o EvoStar Award 2018, um galardão que reconhece a qualidade e o impacto mundial do trabalho desenvolvido ao longo da sua carreira na área da computação evolucionária.

Pedro Castro

Nesta fotolegenda destacamos uma passagem da entrevista com o engenheiro químico Pedro Castro e que pode ser ouvida no canal YouTube e na área multimédia deste site.

Alunos no Campus de Ciências

"É necessário um equilíbrio entre aquilo que eu e o outro precisamos", explica a psicóloga Andreia Santos, na sua rubrica habitual.

CAP

A 8.ª conferência Communicating Astronomy with the Public, ocorrida em março, no Japão, juntou mais de 450 comunicadores de ciência, de 53 países. João Retrê, do Instituto de Astrofísica e Ciências do Espaço foi um deles.

Páginas