IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

O Laboratório Nacional de Engenharia Civil abriu um concurso para atribuir uma bolsa de Investigação (BI) para mestre, no âmbito do Projeto PAC:MAN – Sistema de Gestão do Risco de Acide

Cartaz da iniciativa

Estão de volta os Diálogos com Formas & Fórmulas.

"Portugal vive um momento mau mas que pode vir a ser o melhor que lhe aconteceu, compete-nos a nós gerações mais jovens virar as dificuldades a nosso favor. Como? Buscando em outras sociedades o que se faz de melhor e aplicando-o no nosso país. Não é fácil, mas Roma não se fez num dia", declarou o aluno da FCUL, Pedro Mendes Pereira.

Pedro Rosa

Os regulamentos publicados no âmbito desta temática são de aplicação transversal à FCUL, independentemente do serviço que os gerir e estão em vigor desde 1 de janeiro de 2014.

Ciências em Movimento - 10 a 14 de fevereiro

“Ordem e Caos”, “Matéria e Energia”, “Mar e Atmosfera”, “Riscos e Catástrofes” e “Tecnologia e Sustentabilidade” são as temáticas abordadas em cada dia desta semana onde “diferentes áreas científicas ‘conversam’ entre si e com os visitantes”, anunciam os promotores da atividade de entrada livre, mas sujeita a inscrição.

A Bial, grupo internacional da indústria farmacêutica, procura candidato com grau de Mestre em Bioestatística ou em área similar, com 3 a 5 anos de experiência.

Emiliania huxleyi

Iniciada há 16 anos, a Algoteca é uma coleção única, por incluir maioritariamente espécies de algas marinhas e estuarinas da costa portuguesa, sendo por isso um verdadeiro repositório de património genético nacional.

"Não tenham medo de concorrer a uma tese inserida num contexto empresarial. É uma experiência enriquecedora, irão ter contacto com tecnologias novas muito específicas a este meio e é ainda uma excelente oportunidade de enriquecerem o vosso currículo”, comenta Rafael Soledade, antigo aluno do DI-FCUL.

Liceu Camões

Helder Coelho, Luís Correia, João Pedro Neto e Hugo Miranda apresentam palestras num dos liceus mais antigos da capital, criado em 1902.

Pormenor de uma obra de arte

O primeiro número será divulgado na próxima segunda-feira, dia 3 de fevereiro. Inclui notícias, eventos, concursos, destaques e vídeos publicados no Portal da FCUL.

Kamil Feridun Turkman

O Conselho de Escola recomendou a todos os seus membros a organização de sessões de esclarecimento e auscultação pública dos seus pares, dentro dos departamentos, associações de estudantes e não docentes. Esse processo irá decorrer desde a publicação do edital até ao fim da audição pública prévia à eleição do diretor.

Lisete Sousa

Um pouco por todo o mundo há cada vez mais estatísticos a trabalharem exclusivamente em Bioinformática. Um dos pioneiros foi Terry Speed, que viu o seu vasto trabalho na área da Bioinformática reconhecido este ano com a atribuição do prémio australiano “Prime Minister's Prizes for Science”.

“Todas as oportunidades devem estar acessíveis a todas as crianças. Enquanto investigadores, apenas podemos mostrar-lhes o fascínio da ciência e provar-lhes que esta não é uma atividade 'para outros', que eles próprios podem sonhar com uma carreira na investigação ou noutras carreiras indispensáveis ao desenvolvimento do país”, declararam os cientistas da FCUL.

Na FCUL, só nas áreas da Biologia, Física e Química, existem mais de duzentos espaços laboratoriais, realizando-se, em cada um, dezenas de atividades diferentes e a cada novo projeto estão associadas outras tarefas diferentes das anteriores.

The doctoral programs in Mathematics of the Faculdade de Ciências (FCUL) and of Instituto Superior Técnico (IST) of the University of Lisbon are now partners under the LisMath Program, funded by the Portuguese Foundation for Science and Technology. The competition for scholarships under the LisMath will be officially announced on 18/1 and will be open 3/2 to 31/3.

Para melhor preparar a sua participação nas calls do Horizon 2020, deverá acompanhar e participar nos Info & Brokerage Events.

Os Work Programmes são a via para pré-selecionar calls do seu interesse.

Agora é Web of Science

“Tomar consciência da existência [de] necessidades e poder contribuir para satisfazer algumas delas é um privilégio que temos quando participamos neste tipo de projetos”, declarou o professor do Departamento de Engenharia Geográfica, Geofísica e Energia, Jorge Maia Alves.

Campus da FCUL

Os programas doutorais em Matemática da Faculdade de Ciências e do Instituto Superior Técnico da nova Universidade de Lisboa são parceiros no âmbito do Programa LisMath, financiado pela Fundação para a Ciência e a Tecnologia.

Joana Almaça, Marisa Sousa, Inna Ulyiakina e Diana Faria não têm dúvidas em afirmar que foram “contaminadas pelo ‘bichinho da ciência’”, por isso, os planos futuros passam por “contribuir para o conhecimento dos mecanismos responsáveis por algumas patologias dos humanos”.

De 4 de janeiro a 1 de fevereiro de 2014,  a Biblioteca do C4 também está aberta aos sábados, das 9h00

A FCUL abriu as portas do Departamento de Física aos alunos da Escola Secundária Vergílio Ferreira, de Lisboa. Durante uma manhã, 26 alunos do 12.º ano exploraram os mistérios da Física.

O percurso académico e profissional da cientista é marcado pela experiência profissional além-fronteiras.

Páginas