IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

A história ensinou-nos que quem faz a língua é quem a fala e escreve e estou em crer que todos estes e muitos outros termos, goste-se ou não, vieram para ficar.

Bruno Carreira, doutorado em Biologia por Ciências e atualmente investigador de pós-doutoramento no cE3c - Centro de Ecologia, Evolução e Alterações Ambientais, é o vencedor da edição de 2016 do Prémio Fluviário de Mora - Jovem Cientista do Ano.

Quando Leibniz e Newton se enfrentaram no século XVII, sobre a origem do Cálculo, criaram um espaço para exercerem o contraditório, argumentando e criticando, em defesa dos seus argumentos. Esse exercício chama-se controvérsia (debate ou polémica), considerada por muitos como a máquina do progresso intelectual e prático. Cada um dos lados apresenta a sua explicação (causa) das suas razões, como factos (pro ou contra), e os quais sustentam e justificam a sua posição.

Ciências participou no Google Hashcode 2017. Das 12 equipas concorrentes, cinco resolveram corretamente os desafios de programação, numa maratona marcada, segundo os participantes, pela aquisição de competências e boa disposição.

Maria Amélia Martins-Loução, investigadora do cE3c e professora do DBV Ciências, é a nova presidente da Sociedade Portuguesa de Ecologia.

A 3.ª corrida de carros movidos a energia solar conta com a participação de 30 pilotos e dez carros construídos por alunos dos ensinos secundário e universitário.

“Estou a adorar a minha experiência académica. Ao estar no ramo da Matemática, consegui desenvolver algumas softskills, tais como a organização, a atenção ao detalhe, a capacidade para questionar e o rigor”, declara Diogo Ramalho, campeão nacional universitário de Taekwondo e aluno de Matemática de Ciências.

“Chocolate – do laboratório à fábrica” é uma das 159 palestras apresentadas por professores, cientistas a pedido das escolas secundárias.

No programa Novos Talentos em Matemática, edição 2016/2017, da Fundação Calouste Gulbenkian, foram distinguidos três alunos de Ciências. Desta vez, entrevistamos a aluna do 3.º ano do curso de Matemática de Ciências, Isabel Nobre.

Uma circulação de vento entre o equador e os polos foi detetada em ambos os hemisférios de Vénus pela primeira vez, e poderá contribuir para explicar a superrotação da atmosfera deste planeta, segundo estudo liderado por Pedro Machado, investigador do Instituto de Astrofísica e Ciências do Espaçoe professor do Departamento de Física de Ciências.

No filme “The man who knew infinity” (sobre a colaboração de Ramanujan com Hardy em Cambridge, Reino Unido) aborda-se a resolução de problemas e a discussão do recurso à intuição. O terreno da Matemática é o escolhido, tal como no problema de Kadinson-Singer (sem resolução durante 50 anos), e onde se trata da reconciliação da Física Quântica com a Matemática (Marcus, Spielman e Srivastava, 2015).

Filipe Duarte Santos foi designado presidente do Conselho Nacional do Ambiente e do Desenvolvimento Sustentável (CNADS), segundo comunicado do Conselho de Ministros de 9 de março.

O que fazem e o que pensam alguns membros da comunidade de Ciências? O Dictum et factum de março é com Rui Batista, especialista em Informática da Área de Sistemas de Informação e Desenvolvimento da Direção de Serviços Informáticos de Ciências.

Proteger a biodiversidade. Engane-se quem pensa que só os biólogos participam nesta árdua tarefa. 

Um estudo publicado na revista “Quaternary Science Reviews”, fruto de cinco anos de trabalho de investigadores portugueses e espanhóis, permitiu reconstruir a evolução da vegetação, paisagem e clima da ilha de São Miguel nos últimos 700 anos, através da análise dos sedimentos da Lagoa Azul.

A American Physical Society (APS) já anunciou a lista de homenageados pelo "Outstanding Referee Program" em 2017 e José Pedro Mimoso, professor do Departamento de Física e investigador do Instituto de Astrofísica e Ciências do Espaço, é um deles.

As populações de várias espécies de anfíbios na Serra da Estrela estão a diminuir drasticamente, devido a uma infeção por uma nova estirpe de vírus, também já detetado noutras partes de Espanha e da Europa, segundo comunicado de imprensa emitido recentemente pelo cE3c – Centro de Ecologia, Evolução e Alterações Ambientais.

Durante o Green Day ocorrido esta segunda-feira no campus de Ciências foi apresentado o Ecokart Twin, o primeiro kart elétrico português de dois lugares.

“Pequenas ações fazem a diferença, não tenham medo de sair da zona de conforto”. João Paulo Silva, um dos membros do projeto Movetech Telemetry, “apaixonado pela natureza”, dedicado ao estudo da ecologia das aves dos meios agrícolas, nomeadamente em projetos de seguimento remoto de vida selvagem como o Lince ou a Águia Imperial, deixa este conselho aos jovens que se interessam por esta área da Biologia. Saiba mais sobre este cientista, antigo aluno de Ciências e coordenador da componente científica e de desenvolvimento de software do Movetech Telemetry.

João Paulo Silva, doutorado em Ecologia por Ciências, investigador do Centro de Investigação em Biodiversidade e Recursos Genéticos e do cE3c, é um dos membros da equipa do Movetech Telemetry, no âmbito do qual estão a ser desenvolvidos equipamentos ultraleves e de grande autonomia para monitorização eficaz da vida selvagem.

O mercado do processamento da língua natural (PLN), segmentado em codificação automatizada, análise de textos, reconhecimento de carateres óticos, resposta interativa em voz, reconhecimento de padrões e imagens, e analítica da voz, tenderá a aumentar muito nos próximos dez anos.

O “XV Encontro de Jovens Investigadores em Paleontologia (EJIP)” realiza-se de 19 a 22 de abril de 2017, na cidade de Pombal, um concelho cuja riqueza paleontológica é salientada pela comissão organizadora desta 15.ª edição. Carlos Marques da Silva e Mário Cachão, professores do Departamento de Geologia e investigadores do Instituto Dom Luiz, são oradores convidados do encontro, cujas inscrições decorrem até ao final de março.

“Este programa dá-nos acesso a artigos, livros e outros materiais propostos pelos nossos tutores que nos dão uma grande ajuda a compreender melhor o gigante mundo que é a Matemática”, diz Rodrigo Duarte, estudante de Ciências, galardoado com uma bolsa Novos Talentos em Matemática 2016/2017.

Anny Caroline Muniz, aluna do mestrado em Bioestatística de Ciências, participou no estudo “Perfil Tabágico dos Estudantes dos 2.º e 3.º ciclos das Escolas do ACES Arco Ribeirinho”, dos concelhos de Alcochete, Barreiro, Moita e Montijo, desenvolvendo igualmente um modelo matemático para a previsão do adolescente/tipo com maior probabilidade de começar a fumar precocemente.

Qual o principal fator que provocou o crescimento das regiões exteriores das galáxias elípticas na época mais recente do Universo? Esta pergunta motivou a investigação liderada por Fernando Buitrago, investigador do Instituto de Astrofísica e Ciências do Espaço e professor convidado do Departamento de Física de Ciências, dando origem ao mais detalhado estudo publicado online em janeiro na Monthly Notices of the Royal Astronomical Society.

Páginas