IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

Realiza-se este mês a 7th International Conference on Risk Analysis, em Chicago. Nela, a professora de Ciências Maria Ivette Gomes é homenageada pelo seu trabalho na área da Análise de Risco.

Faltam poucos dias para o Dia Aberto. A Faculdade volta a abrir portas aos alunos do ensino secundário no próximo dia 3 de maio.

Nos dias 27 e 28 de abril de 2017 realiza-se a 8.ª edição da feira anual de emprego da Faculdade de Ciências da Universidade de Lisboa.

sistema ótico

A componente tecnológica do espectrógrafo ESPRESSO que irá conduzir a luz dos telescópios do VLT para o instrumento, o coudé train, a ser instalado no ESO, é feita por uma equipa portuguesa da qual fazem parte professores e investigadores de Ciências. Neste artigo, fique a conhecer o trabalho realizado pelo grupo.

No mesmo espaço, associações de voluntariado, voluntários e estudantes de Ciências com interesse na disciplina de Voluntariado Curricular reuniram-se. O objetivo foi dar a conhecer o trabalho feito na disciplina de Voluntariado Curricular, através da partilha de histórias e experiências.

O Núcleo de Física e Engenharia Física da Faculdade de Ciências da Universidade de Lisboa foi fundado no dia 19 de maio de 2016, curiosamente no dia do Físico, com o intuito de representar os estudantes de Física e Engenharia Física.Uma das atividades organizadas com o intuito de alargar a perspetiva profissional destes alunos foi a Conferência Física Fora da Academia.

A distribuição geográfica atual dos tojos do género Stauracanthus - arbustos espinhosos que ocorrem nas dunas interiores das praias portuguesas - deve-se a acontecimentos geológicos de grande escala ocorridos no Mar Mediterrâneo há cerca de cinco milhões de anos.

O planeta Terra está em constante mudança. Pegue em qualquer livro de Geologia e uma das primeiras frases que vai encontrar será esta ou uma muito parecida. Se continuar a ler, ficará a saber que a Terra tem mais de 4500 milhões de anos e que nem sempre foi como a conhecemos. Antes, existiam supercontinentes rodeados por vastos oceanos que, ao longo de milhões de anos, se fragmentaram e relocalizaram dando forma aos seis continentes e cinco oceanos que compõem atualmente o planeta azul.

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de abril é com Ana Pereira, técnica superior do Gabinete de Empregabilidade da Área de Mobilidade e de Apoio ao Aluno de Ciências.

O dryVHP venceu o prémio Inovação Ageas – Novo Mundo. Construir aparelhos de esterilização mais rápidos e eficazes, ou aparelhos de esterilização portáteis e não elétricos para missões humanitárias é o objetivo deste projeto, desenvolvido em Ciências.

“Estes programas de bolsas e estímulos são muito importantes para os alunos que, como eu, ambicionam tornar-se investigadores”, declara o aluno de Ciências, um dos vencedores da edição 2016/2017 do prémio Novos Talentos em Matemática, da Fundação Calouste Gulbenkian.

O programa CSA (community supported agriculture) refere-se a uma comunidade de produtores e consumidores que partilham os benefícios e os riscos da produção numa inspiradora experiência de responsabilidade conjunta em torno do alimento. 

Raquel Conceição, chair da Ação MiMed-TD1301 e Pedro Almeida, um dos representantes nacionais da Ação COST FAST, participaram no “Portugal in the Spotlight”. Os professores de Ciências deram a conhecer o sucesso das ações COST em que estão envolvidos, participando ainda no debate “Making the added value of networking tangible. The Portuguese perspective".

A Faculdade visita escolas secundárias há 19 anos e em parceria com a empresa Inspiring Future, desde 2014, por forma a divulgar a sua oferta formativa. Este ano letivo foram agendadas 95. Até agora Ciências já esteve em 56 escolas, após as férias escolares irá visitar mais 39.

A história ensinou-nos que quem faz a língua é quem a fala e escreve e estou em crer que todos estes e muitos outros termos, goste-se ou não, vieram para ficar.

Bruno Carreira, doutorado em Biologia por Ciências e atualmente investigador de pós-doutoramento no cE3c - Centro de Ecologia, Evolução e Alterações Ambientais, é o vencedor da edição de 2016 do Prémio Fluviário de Mora - Jovem Cientista do Ano.

Quando Leibniz e Newton se enfrentaram no século XVII, sobre a origem do Cálculo, criaram um espaço para exercerem o contraditório, argumentando e criticando, em defesa dos seus argumentos. Esse exercício chama-se controvérsia (debate ou polémica), considerada por muitos como a máquina do progresso intelectual e prático. Cada um dos lados apresenta a sua explicação (causa) das suas razões, como factos (pro ou contra), e os quais sustentam e justificam a sua posição.

Ciências participou no Google Hashcode 2017. Das 12 equipas concorrentes, cinco resolveram corretamente os desafios de programação, numa maratona marcada, segundo os participantes, pela aquisição de competências e boa disposição.

Maria Amélia Martins-Loução, investigadora do cE3c e professora do DBV Ciências, é a nova presidente da Sociedade Portuguesa de Ecologia.

A 3.ª corrida de carros movidos a energia solar conta com a participação de 30 pilotos e dez carros construídos por alunos dos ensinos secundário e universitário.

“Estou a adorar a minha experiência académica. Ao estar no ramo da Matemática, consegui desenvolver algumas softskills, tais como a organização, a atenção ao detalhe, a capacidade para questionar e o rigor”, declara Diogo Ramalho, campeão nacional universitário de Taekwondo e aluno de Matemática de Ciências.

“Chocolate – do laboratório à fábrica” é uma das 159 palestras apresentadas por professores, cientistas a pedido das escolas secundárias.

No programa Novos Talentos em Matemática, edição 2016/2017, da Fundação Calouste Gulbenkian, foram distinguidos três alunos de Ciências. Desta vez, entrevistamos a aluna do 3.º ano do curso de Matemática de Ciências, Isabel Nobre.

Uma circulação de vento entre o equador e os polos foi detetada em ambos os hemisférios de Vénus pela primeira vez, e poderá contribuir para explicar a superrotação da atmosfera deste planeta, segundo estudo liderado por Pedro Machado, investigador do Instituto de Astrofísica e Ciências do Espaçoe professor do Departamento de Física de Ciências.

No filme “The man who knew infinity” (sobre a colaboração de Ramanujan com Hardy em Cambridge, Reino Unido) aborda-se a resolução de problemas e a discussão do recurso à intuição. O terreno da Matemática é o escolhido, tal como no problema de Kadinson-Singer (sem resolução durante 50 anos), e onde se trata da reconciliação da Física Quântica com a Matemática (Marcus, Spielman e Srivastava, 2015).

Páginas