IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

A Matemática da ULisboa encontra-se em 14º lugar no ranking das melhores universidades europeias e em 58º lugar a nível mundial segundo o ranking U.S.

A plataforma moodle arquivo estará em manutenção (não sendo possível aceder à mesma) a partir das 14h00 de dia 3 de novembro até ao final de quarta-feira, dia 5 de

Food & Nutrition Awards

Equipa composta por investigadores do Centro de Química e Bioquímica da Faculdade de Ciências foi distinguida com a 2.ª Menção Honrosa, na categoria de Investigação e Desenvolvimento, da 5.ª edição do “Food & Nutrition Awards”.

A reunião geológico-cultural da Geologists Association aconteceu este ano em Portugal.

Parabéns a ALEXANDRE ANAHORY DE SENA SIMÕES, aluno do Mestrado em Matemática, pela atribuição do prémio do Programa Estímulo à Investigação 2014 na área da Matemática, com o trabalho "Métodos topol&oac

Em 2014 a European Molecular Biology Organization (EMBO) celebra 50 anos. Em entrevista, Margarida Amaral comenta a sua eleição, explica quais são as funções dos membros da EMBO e deixa mensagens a governantes, dirigentes universitários e alunos de ciências.

A sessão de entrega dos prémios realiza-se a 21 de novembro.

O Southwestern European Regional Programming Contest (SWERC) 2014 ocorre a 22 e 23 de novembro de 2014, na Faculdade de Ciências da Universidade do Porto.

O foco da plataforma Food & Nutrition Awards é “Inovar para Crescer”.

Campus de Ciências

Para um padrão de consumo doméstico típico, um sistema fotovoltaico não é economicamente viável, exceto talvez para muito baixas potências instaladas.

Queres potenciar a tua energia para entrares no mercado de trabalho?

Trainees 2015 - InterCement

A INTERCEMENT está a dar início ao Programa de Trainees Internacional - 2015.

A Liga para a Protecção da Natureza encontra-se a recrutar formadores que estejam capacitados para ministrar cursos que se enquadrem nas seguintes áreas de formação:

Dados demonstram que as pessoas ficam presas no trânsito cerca de 34 horas todos os anos e gastam 1.9 mil milhões de litros de combustível.

José Sebastião e Silva

A Universidade de Lisboa comemora o centenário do nascimento de José Sebastião e Silva organizando diversos eventos, alguns em parceria com outras instituições, durante o ano letivo de 2014/2015.

A Procter & Gamble (P&G) promove, no próximo dia 23 de outubro (manhã), o evento online OneDayWith P&G.

MARE participa no WRIC Oceans 2014

Workshops, apresentações e sessões de painéis interativos, com o intuito de “abordar as questões mais importantes para os oceanos, políticas de investigação, a Diretiva-Quadro de Estratégia Marinha e a Política Comum de Pescas”, compõe a programação do WRIC Oceans 2014.

O Universia e o Trabalhando divulgaram os resultados do 3º inquérito de Emprego 2014, sobre a temática do "Voluntariado". 

Filipe Lopes

O catálogo da coleção conta atualmente com mais de 33000 registos, sendo a maior parte destes referentes à entomofauna portuguesa. Outras regiões bem representadas na coleção são sobretudo países africanos dos PALOP.

OAEI

O grupo de Ciências especializou-se em prospeção de texto biomédico e medidas de semelhança semântica.

Vais querer perder esta oportunidade que pode mudar o teu futuro? Então não percas tempo e inscreve-te!

As inscrições estarão abertas até 17 de outubro.Mostra que és o líder de amanhã! Participa neste grande evento!

O movimento entre as duas placas é lento, por isso a deformação litosférica em Portugal é lenta, e todo o ciclo sísmico de acumulação e libertação de tensão também é lento.

Seminário/Debate
 
Moderador: António Vallêra, FCUL e SDSIL
 
logotipo

A Secretaria de Estado do Ensino Superior lançou no dia 9 de outubro uma campanha que rejeita a prática de praxes violentas nas instituições de ensino superior portuguesas.

O Departamento de Informática apoia a iniciativa "Mais Mulheres no Ensino e Investigação em Informática". Motivar jovens mulheres para uma carreira na Informática é um desafio ao qual o Departamento responde com empenho ativo.

Páginas