IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

O Departamento de Química e Bioquímica de Ciências volta uma vez mais a aderir a este concurso com 13 anos e que este ano conta com cerca de 266 escolas inscritas, segundo dados disponibilizados pela Sociedade Portuguesa de Química.

Os estudantes de Ciências elegem no dia 28 de abril os três alunos representantes do Conselho de Escola para os próximos dois anos.

O Instituto Dom Luiz organiza a conferência “COP 21 - Desafios para Portugal depois da Conferência de Paris”, no próximo dia 22 de abril de 2016, no edifício C8, no anfiteatro 8.2.30, sito na Faculdade de Ciências da Universidade de Lisboa.

Nove em cada dez dos inquiridos têm conhecimento do projeto HortaFCUL.

Arquitetos, filósofos, advogados, Maria João Collares Pereira refere que os formandos eram sobretudo das humanidades, por isso “para ensinar coisas complicadas a pessoas com esta formação é preciso saber divulgar ciência”.

O quadrado design-ideias-tecnologia-negócios tem vindo a marcar os últimos anos das start-ups, as suas perspetivas e novas possibilidades, com uma inovação extraordinária que atrai os consumidores e faz crescer o valor de uma empresa.

“Todos chegaram ao final com um projeto, um protótipo como se pretendia e com algumas ideias bem interessantes!”, comenta Bernardo Tavares, um dos organizadores do primeiro Lisbon Green Hacakthon.

O que fazem e o que pensam alguns membros da comunidade de Ciências ULisboa?

Ciências participa no dia 19 de março de 2016 nas Masterclasses Internacionais em Física de Partículas.

Oficina das Energias - um grupo de alunos do mestrado integrado de Engenharia da Energia e do Ambiente Ciências - organiza pela primeira vez em Portugal o Lisbon Green Hackathon.

Jorge Relvas, professor do Departamento de Geologia de Ciências, é o novo presidente da Society for Geology Applied to Mineral Deposits. 

A HortaFCUL, como projeto que tenta procurar e experimentar soluções para os atuais problemas socioeconómicos, tem vindo a incorporar nas suas práticas a Economia da Dádiva.

O livro "Mulheres na Ciência" editado pela Ciência Viva reúne mais de uma centena de retratos de investigadoras portuguesas, algumas delas de Ciências.

Resolver os problemas organizacionais e sociais pode ser estimulante, e mais interessante do que se pensava, sobretudo se isso facilitar depois a atração de criativos e inovadores!

No dia 7 de março de 2016, a partir das 16h00, realiza-se no edifício C6, na sala 6.2.56, a Sessão de Apresentação dos Trabalhos dos alunos do Curso Livre de Ciências “Entender o Mundo no Século XXI”, que terminará com a entrega de diplomas e um jantar convívio.

A partir de abril, o espaço que até agora tinha sido ocupado pelo restaurante O Mocho será transformado num restaurante da cadeia 100 Montaditos, um conceito de restauração original, inspirado nas tradicionais tabernas espanholas e

A próxima sessão da Cicloficina realiza-se a 7 de março de 2016, pelas 17h00, no parque de bicicletas do C5.

O “Workshop Corpora and Tools for Processing Corpora”, coorganizado pelo projeto QTLeap, realiza-se a 12 de julho de 2016, em Tomar, no âmbito do “PROPOR 2016 – Intern

Campus da Faculdade

O exercício de evacuação do edifício C2 aconteceu durante a manhã de 26 de fevereiro e contou com a presença da Proteção Civil de Lisboa, do Regimento de Sapadores Bombeiros de Lisboa e da Polícia Segurança Pública - Esquadra do Campo Grande. 

“Estatística no Ensino Secundário” é o tema do próximo Curso Livre de Ciências, organizado pelo Departamento de Matemática (DM) de Ciências. Neste ano letivo cerca de 50 professores participaram nos quatro Cursos Livres de Ciências organizados por Carlota Gonçalves, professora do DM de Ciências.

O 7.º artigo mais lido entre janeiro e março de 2015, na categoria Earth and Planetary Sciences, na revista Precambrian Research é da autoria de dois professores do Departamento de Geologia e investigadores do IDL, Telmo Santos e Paulo Fonseca.

O projeto QTLeap organiza o SedMT2016 e é o patrocinador do Prémio para Melhor Artigo atribuído no âmbito deste workshop.

Quando me desloco, pelas ligações (veredas) do campo da ULisboa, faço uma escolha de um tema para meditar sobre o seu interesse, enquanto ando a pé. Quase sempre consigo dividi-lo em pedaços, para depois os analisar.

Aproximadamente 213 alunos da ULisboa já frequentaram o INOV Contacto, segundo dados transmitidos pela AICEP. Em 2015/2016 foram atribuídos a nível nacional 280 estágios, 24 deles a diplomados da ULisboa, desses oito são recém-graduados de Ciências.

O artigo “Critical fragmentation properties of random drilling: How many random holes need to be drilled to collapse a wooden cube?” foi capa do volume 115 da Physical Review Letters, publicada a 5 de fevereiro de 2016.

Páginas