IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

Desde 1971 que a guerra está aberta, mas o combate tem sido difícil. Por um lado, não temos só uma doença, e o que já conhecemos não tem chegado para estarmos contentes.

Um novo estudo liderado por Ciências encontrou grandes quantidades de fibras artificiais no estuário do Tejo e em zonas costeiras da África Ocidental, segundo comunicado de imprensa emitido pela Faculdade esta segunda-feira.

Falta pouco para a Faculdade voltar a ser homenageada com a atribuição de mais duas insígnias de professores eméritos a dois dos seus docentes aposentados.

Zbigniew Kotowicz, investigador e membro integrado do Centro de Filosofia das Ciências da Universidade de Lisboa, faleceu aos 67 anos, no dia 21 de setembro de 2017.

Ciências integra um consórcio europeu que vai receber do programa Horizon 2020 cinco milhões de euros para desenvolver, entre 2018 e 2021, a mais avançada tecnologia de espectrometria de massa.

Agora que terminaste o ensino secundário e estás prestes a iniciar esta nova etapa, vários vão ser os desafios pessoais e académicos que vais enfrentar.

O "MOONS Science Consortium Meeting" termina esta quarta-feira, dia 13 de setembro, após dois dias de reuniões. O encontro "à porta fechada" decorre no campus de Ciências e visa consolidar os casos científicos e discutir as estratégias de observação do espectrógrafo, cuja fase de construção arranca agora.

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de setembro é com Sandra Crespo, assistente técnico do Departamento de Informática de Ciências.

Ciências preencheu 99,9% das suas vagas na 1.ª fase do Concurso Nacional de Acesso (CNA) ao ensino superior, a taxa mais elevada desde que há registo.

No dia 14 de setembro, pelas 17h30, a arqueóloga Lídia Fernandes vai falar sobre o chão, no MUHNAC-ULisboa, em mais uma sessão de 60 Minutos de Ciência.

Maria de Deus Carvalho, professora do Departamento de Química e Bioquímica (DQB) e investigadora do Centro de Química e Bioquímica de Ciências, faleceu aos 53 anos, no dia 5 de setembro de 2017.

As Olimpíadas Internacionais de Ciências da Terra ocorreram nos dias 29 e 30 de agosto, em Nice, na Côte d'Azur, em França. Pelo terceiro ano consecutivo, os estudantes do ensino secundário português voltaram a conquistar medalhas.

Depois de ter passado pela Austrália, África do Sul, EUA e Reino Unido, entre outros países, a EMAPI chega a Portugal.

Valiant acredita que a ciência da aprendizagem permanece apenas explorada parcialmente, e que o uso das previsões (via a Aprendizagem) no mundo atual, tão sujeito às mudanças e às surpresas, é particularmente interessante. Por exemplo, os sistemas biológicos são altamente adaptativos, e compreender o que eles fazem, passo a passo, e porquê tem êxito, levaram-no a considerá-los como tópicos ideais para uma teoria da aprendizagem e da ciência da computação.

O “5th International Tsunami Field Symposium” realiza-se de 3 a 7 de setembro de 2017, em Lisboa e no Algarve e reúne a elite mundial no estudo de depósitos de tsunami, destaque para os dois oradores convidados - Alastair Dawson e Raphael Paris.

O projeto “Caixa Sismológica”, do Agrupamento D. Maria II, com sede na Escola Básica e Secundária Gama Barros, no Cacém, venceu o concurso internacional “Ciência na Escola”, 1.º escalão – Educação Pré-escolar, promovido pela Fundação Ilídio Pinho. Neste escalão do concurso, participaram 48 projetos, dos quais só 12 chegaram à fase final, em Coimbra.

Após perto de dez anos de planeamento e construção, o espectrógrafo ESPRESSO vai ser instalado no Very Large Telescope, do ESO, no Chile. O Instituto de Astrofísica e Ciências do Espaço é um dos membros do consórcio, pelo que terá acesso a 273 noites de observação com o VLT.

Cerca de 360 pessoas estiveram presentes na sessão Ignite IAstro e que integrou o programa do XXVII Encontro Nacional de Astronomia e Astrofísica. Em outubro a digressão ruma até à Ribeira Grande, nos Açores.

Os autores do artigo apresentam a história evolutiva de duas espécies de lagartos endémicos da Austrália - Carlia triacanth e Carlia johnstonei - revelando como se adaptaram a alterações climáticas do passado.

Com o fortalecimento da Aprendizagem (Machine Learning), a escola clássica da Inteligência Artificial ou IA (Good Old Fashion AI, GOFAI), apoiada em sistemas simbólicos, ficou entrincheirada. O livro mais recente do professor Hector Levesque, “Common Sense, the Turing Test, and the Quest for Real AI”, da MIT Press (2017), vem ajudar a não esquecermos o que a IA nos tem ensinado, ano após ano, acerca da mente, e, em particular, que o pensamento é um processo computacional. Como pode, então, a computação iluminar o pensamento?

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de agosto é com Cristina Manessiez, técnica superior da Biblioteca de Ciências.

Investigadores de Ciências e do Instituto Universitário de Lisboa desenvolvem hardware capaz de resolver tarefas robóticas, em contexto real, em menos tempo do que o alcançado até então. Os resultados foram publicados na revista científica Royal Society.

Em 2017 os Prémios Científicos ULisboa/Caixa Geral de Depósitos foram atribuídos a Vladimir Konotop e Ricardo Trigo. O ano passado foi a vez de Henrique Cabral e Eric Font. Ainda não é conhecida a data da cerimónia pública de entrega das referidas distinções.

Na lista de artigos e livros notáveis da ACM Computing Reviews, a Best of Computing, encontram-se publicações de professores e investigadores do Departamento de Informática de Ciências.

grupo de participantes

Alunos do ensino secundário participaram em projetos de investigação na Faculdade de Ciências da ULisboa. O culminar da atividade deu-se com um Congresso Científico, onde os "novos cientistas" apresentaram os resultados do trabalho realizado.

Páginas