IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

O "MOONS Science Consortium Meeting" termina esta quarta-feira, dia 13 de setembro, após dois dias de reuniões. O encontro "à porta fechada" decorre no campus de Ciências e visa consolidar os casos científicos e discutir as estratégias de observação do espectrógrafo, cuja fase de construção arranca agora.

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de setembro é com Sandra Crespo, assistente técnico do Departamento de Informática de Ciências.

Ciências preencheu 99,9% das suas vagas na 1.ª fase do Concurso Nacional de Acesso (CNA) ao ensino superior, a taxa mais elevada desde que há registo.

No dia 14 de setembro, pelas 17h30, a arqueóloga Lídia Fernandes vai falar sobre o chão, no MUHNAC-ULisboa, em mais uma sessão de 60 Minutos de Ciência.

Maria de Deus Carvalho, professora do Departamento de Química e Bioquímica (DQB) e investigadora do Centro de Química e Bioquímica de Ciências, faleceu aos 53 anos, no dia 5 de setembro de 2017.

As Olimpíadas Internacionais de Ciências da Terra ocorreram nos dias 29 e 30 de agosto, em Nice, na Côte d'Azur, em França. Pelo terceiro ano consecutivo, os estudantes do ensino secundário português voltaram a conquistar medalhas.

Depois de ter passado pela Austrália, África do Sul, EUA e Reino Unido, entre outros países, a EMAPI chega a Portugal.

Valiant acredita que a ciência da aprendizagem permanece apenas explorada parcialmente, e que o uso das previsões (via a Aprendizagem) no mundo atual, tão sujeito às mudanças e às surpresas, é particularmente interessante. Por exemplo, os sistemas biológicos são altamente adaptativos, e compreender o que eles fazem, passo a passo, e porquê tem êxito, levaram-no a considerá-los como tópicos ideais para uma teoria da aprendizagem e da ciência da computação.

O “5th International Tsunami Field Symposium” realiza-se de 3 a 7 de setembro de 2017, em Lisboa e no Algarve e reúne a elite mundial no estudo de depósitos de tsunami, destaque para os dois oradores convidados - Alastair Dawson e Raphael Paris.

O projeto “Caixa Sismológica”, do Agrupamento D. Maria II, com sede na Escola Básica e Secundária Gama Barros, no Cacém, venceu o concurso internacional “Ciência na Escola”, 1.º escalão – Educação Pré-escolar, promovido pela Fundação Ilídio Pinho. Neste escalão do concurso, participaram 48 projetos, dos quais só 12 chegaram à fase final, em Coimbra.

Após perto de dez anos de planeamento e construção, o espectrógrafo ESPRESSO vai ser instalado no Very Large Telescope, do ESO, no Chile. O Instituto de Astrofísica e Ciências do Espaço é um dos membros do consórcio, pelo que terá acesso a 273 noites de observação com o VLT.

Cerca de 360 pessoas estiveram presentes na sessão Ignite IAstro e que integrou o programa do XXVII Encontro Nacional de Astronomia e Astrofísica. Em outubro a digressão ruma até à Ribeira Grande, nos Açores.

Os autores do artigo apresentam a história evolutiva de duas espécies de lagartos endémicos da Austrália - Carlia triacanth e Carlia johnstonei - revelando como se adaptaram a alterações climáticas do passado.

Com o fortalecimento da Aprendizagem (Machine Learning), a escola clássica da Inteligência Artificial ou IA (Good Old Fashion AI, GOFAI), apoiada em sistemas simbólicos, ficou entrincheirada. O livro mais recente do professor Hector Levesque, “Common Sense, the Turing Test, and the Quest for Real AI”, da MIT Press (2017), vem ajudar a não esquecermos o que a IA nos tem ensinado, ano após ano, acerca da mente, e, em particular, que o pensamento é um processo computacional. Como pode, então, a computação iluminar o pensamento?

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de agosto é com Cristina Manessiez, técnica superior da Biblioteca de Ciências.

Investigadores de Ciências e do Instituto Universitário de Lisboa desenvolvem hardware capaz de resolver tarefas robóticas, em contexto real, em menos tempo do que o alcançado até então. Os resultados foram publicados na revista científica Royal Society.

Em 2017 os Prémios Científicos ULisboa/Caixa Geral de Depósitos foram atribuídos a Vladimir Konotop e Ricardo Trigo. O ano passado foi a vez de Henrique Cabral e Eric Font. Ainda não é conhecida a data da cerimónia pública de entrega das referidas distinções.

Na lista de artigos e livros notáveis da ACM Computing Reviews, a Best of Computing, encontram-se publicações de professores e investigadores do Departamento de Informática de Ciências.

grupo de participantes

Alunos do ensino secundário participaram em projetos de investigação na Faculdade de Ciências da ULisboa. O culminar da atividade deu-se com um Congresso Científico, onde os "novos cientistas" apresentaram os resultados do trabalho realizado.

A palestra "Por que não anda o tempo para trás?” acontece dia 29 de julho, pelas 21h30, no Planetário Calouste Gulbenkian, Centro Ciência Viva de Belém.

Durante duas semanas, estudantes do ensino básico e secundário conheceram o ambiente da Faculdade e os métodos de trabalho dos cursos aqui lecionados.

“Tina dos Tsunamis” ocorreu no passado dia 29 de junho, durante o campo de férias Exploradores, com um grupo de 25 crianças, entre os 7 e os 14 anos do bairro do 2.º Torrão, em Almada.

Para compreendermos as capacidades de cada um de nós é preciso entender como as células nervosas se comportam e como interatuam entre si, isto é, pode sempre existir uma outra hipótese que consiga explicar um pouco mais. E, existem sempre os factos e as interpretações.

A Faculdade de Ciências da Universidade de Lisboa organiza de 24 a 28 de julho de 2017 a 4.ª edição do “Ser Cientista”.

No próximo ano letivo Ciências apresenta três novos cursos: Biologia dos Recursos Vegetais, Cultura Científica e Divulgação das Ciências e Data Science.

Páginas