No Campus com Helder Coelho

Atualidade dos Analisadores Semânticos

Helder Coelho

Nos últimos anos, a possibilidade de falar com uma máquina (relógio, telemóvel, computador portátil, automóvel), um dos sonhos da Inteligência Artificial, tornou-se trivial, pois a tecnologia da linguagem (tradução, reconhecimento, análise, síntese) evoluiu bastante desde a aposta da Apple no Siri em 2011 (veja-se o "Technology Quarterly" do "Economist" de 5 de janeiro de 2017, e a melhoria da precisão no reconhecimento das palavras ou na tradução, cada vez mais perto dos 100%). No entanto, esta vitória da ciência (na idade da avalanche dos dados ou Big Data) não foi fácil e, o que estava em causa, o poder de análise semântica (semantic parser) cresceu (scaled up) graças à fusão dos aspetos lógicos e estatísticos. Mais, o analisador é agora capaz de aprender (Liang, 2016), e foram os avanços da Aprendizagem Mecânica e dos Modelos Estatísticos (Hidden Markov Model, a via da força bruta) os principais responsáveis pelo entusiasmo da indústria e dos mercados. A Microsoft, a Facebook, a Google foram também para a luta e parecem estar empenhadas em melhorar os seus resultados.

Duas linhas de investigação confrontaram-se nos últimos 40 anos, o lado da linguística formal, defendido por Noam Chomsky, e o lado da teoria da informação, que se apoiou em Claude Shannon. E, não se deve esquecer Zellig Harris, o qual defendeu uma aliança forte entre os princípios gramaticais e os informacionais, e o mesmo aconteceu com a via da teoria das linguagens formais.

As técnicas matemáticas ganharam espaço e estão hoje na frente pelos avanços e a lidar com as avalanches de dados. Na presente década, graças aos esforços de um grupo pequeno de empresas, a via da teoria da informação ganhou adeptos, sobretudo devido aos sucessos no reconhecimento da voz (discurso), na busca de informação, e na tradução das línguas. Ferramentas online como o BabelFish (apoiada em regras) e o Google Translate, passaram a ser usadas e prezadas. Empresas mais pequenas, como a Nuance (e o programa Dragon Dictate), mostraram que as tecnologias das redes neuronais são úteis (a DeepMind da Google inaugurou, em 2014, um novo modo de sintetizar os discursos orais, recorrendo a redes neuronais profundas).

O mercado do processamento da língua natural (PLN), segmentado em codificação automatizada, análise de textos, reconhecimento de carateres óticos, resposta interativa em voz, reconhecimento de padrões e imagens, e analítica da voz, tenderá a aumentar muito nos próximos dez anos.

A compreensão de uma língua natural (Português) passou a poder ser decomposta em duas etapas, a tradução das frases lógicas (representação do seu significado) e a produção de ações. E, os analisadores semânticos são capazes de aprender as formas lógicas que estão associadas aos pares frases/ações. A compreensão é organizada com vários módulos, como o executor, a gramática, o modelo, o analisador e o aprendiz. E, o sistema por detrás da compreensão é ensinado e, após o treino, aumenta a sua precisão de trabalho. Mas, devemos ter um certo cuidado pois as línguas estão cheias de ambiguidades e exceções.

Compreensão profunda + raciocínio lógico
(sintaxe, semântica e pragmática)

A composição do significado de uma frase (expressão) é o resultado do arranjo/combinação das subexpressões (partes significantes da frase).

No início (anos 60), e nas duas décadas seguintes, era muito difícil ir além de domínios limitados (fechados) e de enfrentar as complexidades de uma língua em geral, apenas com regras feitas à mão. A evolução da aprendizagem mecânica, foi influenciada pelas técnicas estatísticas, já adotadas pelo reconhecimento de padrões (discurso com voz), e também graças ao modo repetitivo de explorar exemplos de comportamento (entrada/saída) e de os obrigar ao encaixe num modelo (estatístico). A revolução passou ainda pelo enfraquecimento da supervisão (na passagem das formas lógicas anotadas às respostas) e pela ampliação (scaling up) dos analisadores semânticos a domínios mais abertos e complicados. Se os primeiros sistemas exigiam as formas anotadas, os novos começaram a ser treinados com as respostas (via aprendizagem). E, finalmente, a aplicação dos analisadores a diferentes domínios e além do que é mais comum, a pergunta/resposta, tais como a navegação de robôs, a identificação de objetos em cenas, ou a conversão da língua natural em expressões regulares.

O escalamento (scaling up) é, hoje em dia, um dos problemas interessantes da Informática. Consiste em passar de um protótipo (em geral com uma escala pequena) para um sistema mais realista, e na maioria dos casos não exige apenas grandes computadores (alta velocidade e poder de processamento, enormes memórias).

Por exemplo, em simulação social baseada em agentes inteligentes, requer paciência para afinar os principais parâmetros, tornar os agentes cognitivos parecidos com os seres humanos, e multitudes de agentes diferentes em cenários com paisagens bem sofisticadas (o filme Avatar de James Cameron é um bom exemplo de um empreendimento que levou dez anos a realizar, recorrendo a novas tecnologias e ferramentas). No caso de conflitos sociais (como as manifestações de protesto em rua) passar de 1.000 agentes para 2.000 é trivial, mas o salto para 10.000 impõe muito trabalho, tempo e paciência para as afinações.

No futuro, os desafios são ainda grandes, como por exemplo a representação semântica da linguagem ou que supervisão se deverá adotar para aprender a semântica. Recentemente, houve bastante interesse em recorrer às redes neuronais, e suas extensões, para atacar as tarefas mais populares do processamento da língua natural, a tradução mecânica e a pergunta/resposta (veja-se o sucesso do sistema Watson da IBM e da interface Siri da Apple, desde 2011). A paridade entre a tecnologia e o desempenho humano está ainda longe, medida em 2/3 anos, embora os produtos comecem a surgir, como os automóveis com controles ativados por voz. Para alguns, criar discurso ou compreendê-lo são duas operações opostas.

No Departamento de Informática (DI) da Faculdade de Ciências da Universidade de Lisboa (Ciências ULisboa), o grupo do professor António Branco, por detrás da unidade de investigação e desenvolvimento NLX (criada no início de 2000), disponibilizou um serviço o LX-Service para se observarem algumas das ferramentas desenvolvidas em cerca de 20 anos de estudo (LX-Suite, LX-Conjugator, LXGram, POS Tagger, LX-Tokenizer, Lematizador verbal). Recentemente foi aprovado o projeto CNPTDeepMT (Tradução Automática Profunda entre Chinês e Português, no domínio do eCommerce), com a duração de três anos, o apoio da FCT e do Ministério da Ciência e Tecnologia da China e a ser realizado na unidade NLX no DI Ciências ULisboa.

Referência
Liang, P. Learning Executable Semantic Parsers for Natural Language Understanding, Communications of the ACM, Setembro, Vol. 59, Nº 9, 2016.

Helder Coelho, professor do Departamento de Informática de Ciências
info.ciencias@ciencias.ulisboa.pt
Mulheu a tapar o rosto

"Quando o medo de falhar deixa de ser tolerável, geralmente surgem sensações que geram tanto desconforto na pessoa, ao nível físico e psicológico que conduzem à adoção de estratégias menos saudáveis na gestão desse medo. Assistimos a dois grandes grupos de estratégias: o controlo e o evitamento", escreve a psicóloga Andreia Santos.

Primeira estrutura móvel com posto de colheitas biológicas está instalada no exterior do campus da Ciências ULisboa, entre o edifício C6 e a Faculdade de Letras da ULisboa

A primeira estrutura móvel com posto de colheitas biológicas no âmbito do projeto FIGHT COVID, lançado recentemente pela Faculdade e pela SGS Portugal, parceiras desde 2015, está instalada no exterior do campus da Ciências ULisboa, entre o edifício C6 e a Faculdade de Letras da ULisboa. 

Pódio

Em Portugal, a ULisboa continua a ser a universidade líder do Performance Ranking of Scientific Papers for World Universities 2020, mais conhecido por National Taiwan University (NTU) Ranking, que avalia o posicionamento das universidades de acordo com a respetiva produtividade, impacto e excelência dos artigos científicos produzidos em 24 áreas do saber.

chicken tractor

Afonso Ferreira, Florian Ulm, Francisco Azevedo e Silva, Inês Afonso e Tomás Simões apresentam o projeto “CHILL - CHIcken Tractors as an efficient and sustainable Link in closed Loop agriculture”. 

Ricardo Lima investiga em São Tomé e Príncipe

“(…) Se há algo de que não me arrependo foi em ter seguido este sonho de estudar Biologia. Nestes tempos de incertezas, se há algo que faz sentido é persistirmos numa profissão que nos satisfaz”, expressa Ricardo Lima, alumni da Faculdade e investigador do cE3c.

Logotipo

Nona rubrica Radar Tec Labs, dedicada às atividades do Centro de Inovação da Faculdade. A empresa em destaque é a FibFormula.

Universo

Assista ao Dia da Investigação da Ciências ULisboa transmitido pelo canal YouTube desta faculdade e fique a par da investigação de ponta e do importante papel que a Faculdade tem tido na transferência do conhecimento para a sociedade, na sustentabilidade e no combate à COVID-19.

Campus Ciências

Patrícia Tiago e Sergio Chozas, investigadores do cE3c Ciências ULisboa, apresentam o +Biodiversidade@CIÊNCIAS, um projeto que pretende aplicar o conceito de sustentabilidade nos espaços verdes da Ciências ULisboa e caracterizar e monitorizar a sua biodiversidade ao longo do tempo, envolvendo tanto a comunidade da Faculdade como os cidadãos que vivem e trabalham na área.

Esquema do vaso

Um grupo de guardiões da HortaFCUL realizou várias oficinas intituladas “Permacultura de Levar para Casa” no Centro Cultural de Belém, integradas na exposição “Agricultura e Arquitetura: Do Lado do Campo”. Durante a exibição da exposição, realizaram-se 24 oficinas, abrangendo um total de 500 alunos de diversas idades, desde a pré-primária ao 9º ano de escolaridade (dos 4 aos 14 anos).

Pormenor do Estudo em fio dos Painéis de São Vicente, por Almada Negreiros (1950)

Pedro Freitas, professor do Departamento de História e Filosofia das Ciências e investigador do Centro Interuniversitário de História das Ciências e da Tecnologia, escreve sobre Almada Negreiros, figura maior da cultura portuguesa do século XX.

abutre

"Centenas de cadáveres destes abutres encontravam-se sem cabeça, empilhados e intencionalmente escondidos sob arbustos", escreve Mohamed Henriques, doutorando do programa doutoral Biologia e Ecologia das Alterações Globais, juntamente com outros investigadores e conservacionistas numa carta publicada em outubro na Science.

O Dia da Investigação acontece a 28 de outubro de 2020

O Dia da Investigação acontece a 28 de outubro e será transmitido através do canal YouTube da Ciências ULisboa, anuncia a Faculdade em comunicado de imprensa. Consulte o programa e saiba quais são os temas em análise e os oradores das várias sessões, inscreva-se no evento e para ter uma ideia do que o espera assista à reportagem.

Flávio Gomes Oliveira a verificar se as armadilhas capturaram algum musaranho

Flávio Gomes Oliveira, doutorando do programa doutoral em Biologia e Ecologia das Alterações Globais, é um dos autores de um estudo publicado em outubro na Behavioral Ecology, cujos resultados integram a sua tese de doutoramento. Nesta entrevista o jovem investigador faz um balanço dos primeiros anos do doutoramento e deixa conselhos para quem quer seguir esta área.

Musaranho-de-dentes-brancos a ser devolvido à natureza

Um estudo realizado em Lisboa por um grupo de investigadores do CESAM, polo da Ciências ULisboa e da Universidade Adam Mickiewicz de Poznań, na Polónia, detetou diferenças substanciais no comportamento e metabolismo dos musaranhos-de-dentes-brancos que ocorrem na capital portuguesa, quando comparados com indivíduos provenientes de áreas naturais.

Emmanuelle Charpentier e a Jennifer Doudna

Este ano, o Prémio Nobel da Química foi atribuído às cientistas Emmanuelle Charpentier e Jennifer Doudna pelo "desenvolvimento de um método de edição do genoma", denominado CRISPR/Cas9. Leia o artigo da autoria de Lúcia Santos e Madalena Pinto, estudantes de doutoramento no polo da Faculdade do BioISI e Federico Herrera, professor do Departamento de Química e Bioquímica e investigador do BioISI.

Chuva intensa

Um estudo publicado na Nature Communications revela um aumento significativo da quantidade de humidade proveniente das regiões fornecedoras de água precipitável, água transportada até aos continentes pelos chamados rios atmosféricos (ARs).

Logotipo dos Prémios Científicos ULisboa/Caixa Geral de Depósitos 2019

A cerimónia de entrega dos Prémios Científicos ULisboa/CGD 2019 estava prevista para 20 de outubro, na Reitoria da ULisboa, mas face à evolução da pandemia da COVID-19 e na sequência da resolução do Conselho de Ministros emitida recentemente, a cerimónia será adiada para data a anunciar quando as condições de segurança estejam novamente reunidas. Das 30 distinções desta última edição, cinco são para professores e investigadores da Ciências ULisboa.

Roger Penrose, Reinhard Genzel e Andrea Ghez

O Prémio Nobel da Física 2020 distingue um dos teóricos mais distintos dos últimos 60 anos, o matemático e físico sir Roger Penrose e os astrónomos Reinhardt Genzel e Andrea Ghez, que revelaram a presença de um buraco negro extremamente massivo na região central da Via Láctea. Leia o artigo dos cientistas José Pedro Mimoso e Nelson Nunes, em colaboração com José Afonso e António Amorim.

Imagem abstrata

Ciências ULisboa integra a Rede de Inovação da Imprensa Nacional-Casa da Moeda (INCM), cujo objetivo é promover a ponte entre a investigação produzida em ambiente académico e o contexto industrial e empresarial.

Logotipo Radar Tec Labs

Oitava rubrica Radar Tec Labs, dedicada às atividades do Centro de Inovação da Faculdade. A empresa em destaque é a QPLab.

Campus da Ciências ULisboa

Ciências ULisboa volta a preencher a totalidade das vagas, no âmbito da 1.ª fase do Concurso Nacional de Acesso (CNA) ao ensino superior: 1001 candidatos conseguiram colocação nas 13 licenciaturas e nos três mestrados integrados desta faculdade, 449 como 1.ª opção. O número de vagas aumentou na maioria dos cursos, assim como as notas dos últimos alunos colocados nesta 1ª fase.

Cidade

Melhorar o funcionamento e a otimização energética de edifícios e equipamentos, resolvendo algumas das suas limitações, é um dos objetivos do projeto “Self Assessment Towards Optimization of Building Energy (SATO)”, liderado pela Ciências ULisboa e que tem início marcado para o próximo mês de outubro. O projeto integra 16 parceiros europeus da academia e dos sectores público e empresarial e representa a primeira grande colaboração científica entre o LASIGE e o IDL.

Papéis, canetas e braços

Vários alunos da Ciências ULisboa, da Universidade do Algarve (Ualg) e da Faculdade de Medicina Dentária (FMD) da ULisboa apresentaram este verão projetos de iniciação à investigação, desenvolvidos no âmbito da iniciativa “Sê Investigador por Três Semanas!”, promovida pelo Centro de Estatística e Aplicações da Universidade de Lisboa (CEAUL), com o objetivo de cativar os jovens para esta atividade.

cabra-montês

Dezenas de cientistas, técnicos e vigilantes da natureza do ICNF - Instituto da Conservação da Natureza e das Florestas, bem como cidadãos uniram-se em prol do novo Livro Vermelho dos Mamíferos de Portugal continental. O objetivo é melhorar até 2021 o conhecimento destas espécies e dessa forma contribuir para o estabelecimento de medidas e ações de conservação.

Imagens de perfil de 19 cientistas

Entre março e julho deste ano, as redes sociais da Faculdade deram a conhecer 19 pessoas e histórias de investigação, no âmbito da iniciativa “O que faço aqui?”, disponível no site da Faculdade.

Páginas