IA generativa para o português cresce com modelos Albertina e Gervásio

Ecossistema, líder mundial de grandes modelos de linguagem abertos para a língua portuguesa, é coordenado por António Branco, professor da Ciências ULisboa

robot e criança

A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B

Imagem cedida por AB

À família dos codificadores Albertina, foi agora acrescentado o Albertina 1.5B, o maior dos modelos desta família desenvolvido até ao momento, com 1.500 milhões de parâmetros, juntando-se assim aos outros modelos já existentes, com 100 e 900 milhões de parâmetros. Por sua vez, à família dos descodificadores Gervásio, foi também acrescentado um modelo maior, o Gervásio 7B, com 7.000 milhões de parâmetros, juntando-se ao modelo já existente com 1.000 milhões de parâmetros.O Gervásio 7B foi desenvolvido pelo NLX-Grupo da Fala e da Linguagem Natural da Ciências ULisboa. Para uma descrição detalhada, consulte a respetiva publicação: Santos et al., 2024, “Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*”, 3rd Annual SIGUL Meeting, LREC-COLING2024. Para o desenvolvimento do Albertina 1.5B, com o Grupo NLX da Ciências ULisboa, colaborou uma equipa da Faculdade de Engenharia da Universidade do Porto. A respetiva descrição encontra-se em: Santos et al., 2024, “Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family”, 3rd Annual SIGUL Meeting, LREC.

Ecossistema de grandes modelos de linguagem de IA Generativa para a língua portuguesa foi expandido com novas versões dos modelos Albertina e Gervásio. A família Albertina (codificadores) foi aumentada com o novo Albertina 1.5B, e a família Gervásio (descodificadores) com o Gervásio 7B.

“Este ecossistema é crucial para a tecnologia da língua portuguesa e esta expansão representa um passo da maior importância na preparação da língua portuguesa para a era da Inteligência Artificial“, diz o seu coordenador, António Branco, professor do Departamento de Informática da Ciências ULisboa, acrescentando que “estas classes de modelos estão na base de toda a gama de aplicações de IA Generativa, incluindo as mais mediáticas, como os chatbots ou os tradutores automáticos, e sendo maiores, estes novos modelos têm melhor desempenho”.

Este ecossistema é líder mundial em termos de grandes modelos de linguagem desenvolvidos especificamente para a língua portuguesa que são totalmente abertos e documentados. São de código aberto, gratuitos e distribuídos em acesso aberto sob uma licença aberta, e as suas características e desempenho de topo encontram-se pormenorizadamente validados e documentados em artigos científicos.

Recorde-se que o primeiro modelo Albertina foi disponibilizado em maio de 2023, no que constituiu um marco histórico na preparação tecnológica da língua portuguesa para a era digital, ao ser o primeiro grande modelo de linguagem aberto desenvolvido especificamente para o português, para ambas as variantes, de Portugal e do Brasil, e disponibilizado para investigadores, em organizações públicas e privadas, grandes e pequenas, de todos os setores económicos.

O desenvolvimento deste ecossistema tem tido o apoio da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, da Agenda do PRR Accelerat.ai, e da FCCN/FCT, e vai continuar a crescer com mais e melhores modelos.

“Como exemplo, entre muitos outros, da reutilização destes modelos abertos para todo o tipo de finalidades, e por isso do seu importantíssimo efeito multiplicador e democratizador da IA, há a assinalar o recente desenvolvimento por uma start-up do MediAlbertina, para a IA generativa aplicada à medicina em língua portuguesa, que foi possível porque o Albertina já existia para servir de base”, diz  António Branco.

Gabinete de Jornalismo da DCI Ciências ULisboa com Gonçalo Boffil
noticias@ciencias.ulisboa.pt
Já conhece o Albertina PT?

O Programa para Jovens Profissionais 2015 da OCDE está com inscrições abertas até 25 de novembro de 2014. Os candidatos selecionados começarão a trabalhar na sede da OCDE, em Paris, no Verão de 2015.

logotipo

O Erasmus+ é o programa da União Europeia para o financiamento da educação, da formação, da juventude e do desporto durante o período entre 2014/2020.

Amélia Pilar Rauter

Amélia Pilar Rauter lidera o consórcio FCUL na European Innovation Partnership on Active and Healthy Ageing.

Disponível de 6 de outubro a 6 de dezembro.

Vanda Brotas

Não é a primeira vez que Vanda Brotas assume este tipo de função. Entre 2007/2009 também assumiu a presidência do Departamento e entre 2004/2006 coordenou o Centro de Oceanografia.

A TESE - Associação para o Desenvolvimento apresentou os resultados do estudo 

Pela primeira vez, a defesa de uma prova de doutoramento ocorreu nas instalações da Faculdade de Ciências da ULisboa.

Estão abertas as candidaturas para 

Uma ferramenta inovadora para partilhar expectativas e criar um plano de acção.

A Maxdata e a Faculdade de Ciências da ULisboa estão a desenvolver automatismos que permitam melhorar significativamente o controlo de infeções hospitalares e comunitárias.

Este programa de estágios visa a formação avançada de jovens portugueses, com grau académico de licenciatura ou superior, em grandes Organizações Científicas Internacionais, CERN, ESA e o ESO.

07 outubro

12:00 Sala C201, Edifício II, ISCTE-IUL

Aqui estão disponíveis os highlights do Grupo de Espectrometria de Massa Ambiental e Biológica.

 

Até 15 de Novembro é possível aceder via b-on a e-books da Biblioteca Nacional em:
http://bnp.lusoteca.pt/catalog/ileio/#

 

José Afonso

A MOONS deve ficar operacional em 2018.

Parabéns a Alexander Usvyatsov, investigador FCT do CMAF, pelo seu recente prémio de artigo expositório em lógica:

Financiado pela Fundação para a Ciência e a Tecnologia, o Programa tem neste momento candidaturas abertas para:

Programa de Estágios em Investigação na Carnegie Mellon University (Undergraduate Internships Program)

O livro é apresentado durante a sessão inaugural do programa doutoral Filosofia da Ciência, Tecnologia, Arte e Sociedade.

O livro editado pela Âncora Editora é apresentado por José Barata-Moura.

“Work in Flanders” realiza-se nos próximos dias 29 e 30 de Setembro, em Lisboa (serviços centrais do IEFP em Xabregas).

Amália Uamusse

A pós-graduação em Biologia Aquática e Ecossistemas Costeiros da universidade moçambicana é uma das formações que tem recebido o apoio de docentes do Departamento de Biologia de Ciências. Em 2015, dois alunos daquele país vão ser recebidos no Departamento de Química e Bioquímica de Ciências.

A Marinha disponibiliza, todos os anos, às instituições de ensino/formação um conjunto de possibilidades de estágios curriculares constantes não remunerados em diversas áreas da instituição.

O INPE – Centro Regional da Amazônia está contratando doutores, com experiência em geotecnologias, estatística, modelagem, dinâmica de uso e cobertura da terra da Amazônia, para trabalhar no Projeto TerraClass.

Campus de Ciências

Jorge Moreira da Silva, ministro do Ambiente, Ordenamento do Território e Energia participa na cerimónia.

Páginas