IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

A festa dos finalistas de Geologia juntou familiares, amigos, colegas e professores.

Conforme o despacho D/101/2012,  as eleições para a Presidência do Departamento de Informática, irão decorrer entre 3 e 5 de Julho de 2012 na secretaria do departamento.

 

Estão abertas as inscrições para o ‘Mestrado em Matemática para Professores’ (1ª fase de candidaturas até dia 15 de Junho)

 

No âmbito do nº 3 do artigo 9º do Regulamento Eleitoral, e de acordo com o calendário de eleições para Presidentes dos Departamentos, já se encontra disponível o 

A Eleição do Presidente do Departamento de Biologia Animal terá lugar de 3 a 5 de Julho de 2012 na Secretaria do Departamento

A inscrição nos exames dos dias 4 e 5 de junho podem ser excecionalmente realizadas até às 23h59m de 1 de junho.

A eleição do Presidente do DBV  terá lugar de 3 a 5 de Julho de 2012

Matéria escura

Um grupo de 19 cientistas, 14 deles investigadores do Centro de Física Nuclear da UL e do Instituto Tecnológico e Nuclear da UTL, publicaram recentemente novos resultados que contrariam as alegadas descobertas sobre a matéria escura.

PSMR2012 Conference

Estudante de doutoramento no IBEB ganha prémio para o melhor Poster

Tomás Aquino

Bolseiro do CFMC distinguido pela Fundação Calouste Gulbenkian

Imagem de Kairos em pedra

O próximo e quinto número da revista do Centro de Filosofia das Ciências da UL é lançado em novembro. A submissão de textos termina a 30 de setembro.

Encontra-se aberto concurso para bolsa de estágio na área de suporte aos laboratórios letivos e de investigação do Departamento de Informática da Faculdade de Ciências.

Simulação de uma proteína

Quatro lições sobre proteínas.  As investigadoras Maria José R. Gomes e Patrícia Faísca apresentam quatro razões para não faltar à quinta iniciativa do projeto Ciência na UL.

O Dr. Rui Lopes ex-aluno do Departamento de Informática e investigador no LASIGE, actualmente a trabalhar na Google, foi um dos responsáveis da equipa de desenvolvimento do doodle de hoje (23 de Maio).

A Investigação dos Doutores de Amanhã

Lâmpada

"O objetivo é partilhar com os colegas das outras faculdades a experiência que tivemos, e estamos a ter, com a implementação do modelo de gestão por objetivos, assente na identificação dos processos", diz Ana Rocha, secretária-coordenadora da FCUL.

Vários círculos com várias cores

A reunião de entrada livre e sujeita a prévia inscrição inclui sessões plenárias e workshops sob o tema genérico “Prosseguir a excelência, promovendo as competências da UL”.

Produtos alimentares

“Partilhar o que se tem pode ser um convite a algum sacrifício – mas a solidariedade não pode ser só um sentimento, tem de ser um compromisso de ação”, refere Graça Vieira, professora aposentada da FCUL, a propósito da campanha "Vamos dar com o coração".

Plantas em vasos

Hoje é um dia fascinante. Dia de nos fascinarmos com as plantas, com a sua beleza, com o que nos dão, e nos possibilitam – a vida tal como a conhecemos.

Flor sujeita a tratamento para expressão de um gene

Nesta época do ano, não há nada que mais nos descanse o espírito como um campo repleto de cores: branco, amarelo, lilás, vermelho, com flores de diferentes tamanhos e odores.

Seminário do DF

Anúncio de Seminário do DF

Encontra-se aberto concurso para a atribuição de 1 (uma) Bolsa de Investigação, no âmbito do projecto de investigação “Erro de não-resposta nas sondagens telefónicas com telemóveis: causas, efeitos e correcçã

Para marcar uma visita ao novo lugar destinado ao estudos das ciências e das artes basta telefonar ou enviar um email.

Fascination of Plants Day - 18 de maio de 2012.

Páginas