No Campus com Helder Coelho

Atualidade dos Analisadores Semânticos

Helder Coelho

Nos últimos anos, a possibilidade de falar com uma máquina (relógio, telemóvel, computador portátil, automóvel), um dos sonhos da Inteligência Artificial, tornou-se trivial, pois a tecnologia da linguagem (tradução, reconhecimento, análise, síntese) evoluiu bastante desde a aposta da Apple no Siri em 2011 (veja-se o "Technology Quarterly" do "Economist" de 5 de janeiro de 2017, e a melhoria da precisão no reconhecimento das palavras ou na tradução, cada vez mais perto dos 100%). No entanto, esta vitória da ciência (na idade da avalanche dos dados ou Big Data) não foi fácil e, o que estava em causa, o poder de análise semântica (semantic parser) cresceu (scaled up) graças à fusão dos aspetos lógicos e estatísticos. Mais, o analisador é agora capaz de aprender (Liang, 2016), e foram os avanços da Aprendizagem Mecânica e dos Modelos Estatísticos (Hidden Markov Model, a via da força bruta) os principais responsáveis pelo entusiasmo da indústria e dos mercados. A Microsoft, a Facebook, a Google foram também para a luta e parecem estar empenhadas em melhorar os seus resultados.

Duas linhas de investigação confrontaram-se nos últimos 40 anos, o lado da linguística formal, defendido por Noam Chomsky, e o lado da teoria da informação, que se apoiou em Claude Shannon. E, não se deve esquecer Zellig Harris, o qual defendeu uma aliança forte entre os princípios gramaticais e os informacionais, e o mesmo aconteceu com a via da teoria das linguagens formais.

As técnicas matemáticas ganharam espaço e estão hoje na frente pelos avanços e a lidar com as avalanches de dados. Na presente década, graças aos esforços de um grupo pequeno de empresas, a via da teoria da informação ganhou adeptos, sobretudo devido aos sucessos no reconhecimento da voz (discurso), na busca de informação, e na tradução das línguas. Ferramentas online como o BabelFish (apoiada em regras) e o Google Translate, passaram a ser usadas e prezadas. Empresas mais pequenas, como a Nuance (e o programa Dragon Dictate), mostraram que as tecnologias das redes neuronais são úteis (a DeepMind da Google inaugurou, em 2014, um novo modo de sintetizar os discursos orais, recorrendo a redes neuronais profundas).

O mercado do processamento da língua natural (PLN), segmentado em codificação automatizada, análise de textos, reconhecimento de carateres óticos, resposta interativa em voz, reconhecimento de padrões e imagens, e analítica da voz, tenderá a aumentar muito nos próximos dez anos.

A compreensão de uma língua natural (Português) passou a poder ser decomposta em duas etapas, a tradução das frases lógicas (representação do seu significado) e a produção de ações. E, os analisadores semânticos são capazes de aprender as formas lógicas que estão associadas aos pares frases/ações. A compreensão é organizada com vários módulos, como o executor, a gramática, o modelo, o analisador e o aprendiz. E, o sistema por detrás da compreensão é ensinado e, após o treino, aumenta a sua precisão de trabalho. Mas, devemos ter um certo cuidado pois as línguas estão cheias de ambiguidades e exceções.

Compreensão profunda + raciocínio lógico
(sintaxe, semântica e pragmática)

A composição do significado de uma frase (expressão) é o resultado do arranjo/combinação das subexpressões (partes significantes da frase).

No início (anos 60), e nas duas décadas seguintes, era muito difícil ir além de domínios limitados (fechados) e de enfrentar as complexidades de uma língua em geral, apenas com regras feitas à mão. A evolução da aprendizagem mecânica, foi influenciada pelas técnicas estatísticas, já adotadas pelo reconhecimento de padrões (discurso com voz), e também graças ao modo repetitivo de explorar exemplos de comportamento (entrada/saída) e de os obrigar ao encaixe num modelo (estatístico). A revolução passou ainda pelo enfraquecimento da supervisão (na passagem das formas lógicas anotadas às respostas) e pela ampliação (scaling up) dos analisadores semânticos a domínios mais abertos e complicados. Se os primeiros sistemas exigiam as formas anotadas, os novos começaram a ser treinados com as respostas (via aprendizagem). E, finalmente, a aplicação dos analisadores a diferentes domínios e além do que é mais comum, a pergunta/resposta, tais como a navegação de robôs, a identificação de objetos em cenas, ou a conversão da língua natural em expressões regulares.

O escalamento (scaling up) é, hoje em dia, um dos problemas interessantes da Informática. Consiste em passar de um protótipo (em geral com uma escala pequena) para um sistema mais realista, e na maioria dos casos não exige apenas grandes computadores (alta velocidade e poder de processamento, enormes memórias).

Por exemplo, em simulação social baseada em agentes inteligentes, requer paciência para afinar os principais parâmetros, tornar os agentes cognitivos parecidos com os seres humanos, e multitudes de agentes diferentes em cenários com paisagens bem sofisticadas (o filme Avatar de James Cameron é um bom exemplo de um empreendimento que levou dez anos a realizar, recorrendo a novas tecnologias e ferramentas). No caso de conflitos sociais (como as manifestações de protesto em rua) passar de 1.000 agentes para 2.000 é trivial, mas o salto para 10.000 impõe muito trabalho, tempo e paciência para as afinações.

No futuro, os desafios são ainda grandes, como por exemplo a representação semântica da linguagem ou que supervisão se deverá adotar para aprender a semântica. Recentemente, houve bastante interesse em recorrer às redes neuronais, e suas extensões, para atacar as tarefas mais populares do processamento da língua natural, a tradução mecânica e a pergunta/resposta (veja-se o sucesso do sistema Watson da IBM e da interface Siri da Apple, desde 2011). A paridade entre a tecnologia e o desempenho humano está ainda longe, medida em 2/3 anos, embora os produtos comecem a surgir, como os automóveis com controles ativados por voz. Para alguns, criar discurso ou compreendê-lo são duas operações opostas.

No Departamento de Informática (DI) da Faculdade de Ciências da Universidade de Lisboa (Ciências ULisboa), o grupo do professor António Branco, por detrás da unidade de investigação e desenvolvimento NLX (criada no início de 2000), disponibilizou um serviço o LX-Service para se observarem algumas das ferramentas desenvolvidas em cerca de 20 anos de estudo (LX-Suite, LX-Conjugator, LXGram, POS Tagger, LX-Tokenizer, Lematizador verbal). Recentemente foi aprovado o projeto CNPTDeepMT (Tradução Automática Profunda entre Chinês e Português, no domínio do eCommerce), com a duração de três anos, o apoio da FCT e do Ministério da Ciência e Tecnologia da China e a ser realizado na unidade NLX no DI Ciências ULisboa.

Referência
Liang, P. Learning Executable Semantic Parsers for Natural Language Understanding, Communications of the ACM, Setembro, Vol. 59, Nº 9, 2016.

Helder Coelho, professor do Departamento de Informática de Ciências
info.ciencias@ciencias.ulisboa.pt
Imagem gráfica das comemorações do aniversário da Faculdade

Esta segunda-feira, dia 19 de abril, a Faculdade celebra 110 anos. Para acompanhar a cerimónia comemorativa que será realizada uma vez mais online no próximo dia 21 de abril, a partir das 14h00, deverá ligar-se ao canal YouTube.

Exposição Variações Naturais – uma viagem pelas paisagens de Portugal

Após 18 meses de desenvolvimento de projeto e montagem, Variações Naturais – uma viagem pelas paisagens de Portugal abriu portas ao público em novembro passado e vai estar em exibição até 25 de novembro de 2022.

ferramenta de saída de campo

Ícaro Dias da Silva recebeu uma menção honrosa na última edição (2019) dos Prémios Científicos ULisboa / Caixa Geral de Depósitos. O investigador do IDL Ciências ULisboa estuda a geodinâmica das margens continentais relacionadas com a abertura e fecho de oceanos no Paleozoico.

Barcos de pesca em Almograve, Portugal

No âmbito do projeto MarCODE já foram recolhidas mais de 1000 amostras de pescado e marisco - robalo, dourada, raia-lenga, pescada, carapau, polvo, cavala, ouriço e percebes. A amostragem decorreu nas lotas nacionais da DOCAPESCA. As amostras encontram-se a ser processadas analiticamente nos laboratórios do MARE e do BioISI, nos polos da Faculdade.

Imagem de mãos dadas

Até ao próximo mês de julho, cerca de 70 famílias de cuidadores informais no território continental português participam no programa “Famílias Seguras – Cuidar de quem Cuida” lançado pela Ciências ULisboa, através do seu Centro de Testes, em parceria com a Associação Nacional de Cuidados Informais.

Logotipo Radar

Décima quarta rubrica Radar Tec Labs, dedicada às atividades do Centro de Inovação da Faculdade.

Sala com microfone

O jornalismo científico tem a responsabilidade de tornar a mensagem científica compreensível para o público leigo. Jornalistas e cientistas têm o dever cívico de contribuir para a qualidade da informação.

Trajeto de transferência eletrónica num óxido metálico misto de molibdénio e tungsténio

Os fenómenos de transferência de eletrões são omnipresentes em toda a natureza e em Biologia Molecular representam ainda a “transdução de energia”, isto é o transporte de eletrões através de uma enzima ou proteína. Os resultados desta investigação podem ajudar a melhorar a compreensão de como os eletrões se movem nas junções moleculares em dispositivos eletrónicos, ou na transferência de eletrões em biomoléculas com mediação de espécies metálicas.

Pormenor da conceção artística do interior do futuro telescópio espacial de raios X Athena, da ESA

A componente ótica portuguesa, liderada pelo Instituto de Astrofísica e Ciências do Espaço, e que irá integrar o futuro telescópio espacial europeu nos raios X, passou na revisão de requisitos e entra agora na fase de projeto. O IA lidera o conceito e desenho de um sistema de metrologia, ou OBM (do inglês “Onboard Metrology System”), que permitirá orientar com exatidão o espelho do Athena, um telescópio espacial nos raios X, para o sensor de cada um dos dois instrumentos científicos desta missão.

Alunos e professor no campus da Faculdade

A equipa CGD/MATHFCUL ficou classificada em 5.º lugar na final nacional do Global Management Challenge 2020. Exigência foi a palavra escolhida pela equipa para classificar esta experiência. "Fico muito satisfeito e grato pela dedicação e crescimento destes meus alunos", diz João Telhada, professor do DEIO Ciências ULisboa e mentor da equipa.

Mulher esconde rosto com relógio

"O efeito da mudança de hora no consumo de energia é cada vez menos relevante nas nossas sociedades desenvolvidas e, por isso, a avaliação da sua premência deve valorizar sobretudo outros efeitos, como o impacto na saúde, na economia ou no bem-estar dos cidadãos", escreve Miguel Centeno Brito, professor do DEGGE Ciências ULisboa e investigador do IDL.

A distribuição potencial dos continentes no Arcaico e a profundidade do oceano em metros

Mattias Green, professor da Bangor University (BU), no Reino Unido, coorientador de Hannah Davies, estudante do programa doutoral Earthsystems, ganhou uma Bolsa Leverhulme no valor de 245.884,00 £, equivalente a 287.331,58 €, para estudar o clima da Terra no Arcaico, juntamente com João C Duarte, professor do Departamento de Geologia da Ciências ULisboa, investigador do Instituto Dom Luiz e membro da comissão coordenadora do referido programa. 

Pernas de crianças

Inês Lima, Leonor Pires, Mariana Oliveira e Raquel Sales Rebordão, estudantes de Engenharia Biomédica e Biofísica da Ciências ULisboa, classificaram-se em 2. º lugar na 3ª edição do BioMind – Make it in 24 hours! com o produto IMAGI, um projeto que conjuga técnicas de hipnoterapia e realidade virtual com o objetivo de reduzir e controlar a dor crónica em crianças.

Representação de uma bicamada fosfolipídica usada como modelo de uma membrana celular (à esquerda); representação de uma ligação de halogéneo (a amarelo) efetuada entre um átomo de bromo e um átomo de oxigénio de um fosfolípido (à direita)

Investigadores do BioISI Ciências ULisboa conseguiram demonstrar que moléculas halogenadas interagem com membranas biológicas por via de ligações de halogéneo, um fenómeno que pode ser determinante para a eficácia terapêutica de fármacos.

Arame

Mais um artigo do GAPsi Ciências ULisboa. Desta vez a temática é dedicada ao ciclo das relações abusivas.

painéis solares

A 38th European Photovoltaics Specialists Conference - EUPVSEC 2021 realiza-se de 6 a 10 de setembro de 2021, no formato online. João Serra, professor do Departamento de Engenharia Geográfica, Geofísica e Energia da Ciências ULisboa, é o chairman da maior e mais importante conferência europeia dedicada à energia fotovoltaica.

Helena Avelar de Carvalho

"A Helena era, sem qualquer dúvida, uma das melhores na sua área, no mundo inteiro, e a sua carreira académica estava só a começar", escreve Henrique Leitão, presidente do Departamento de Histórioa e Filosofia das Ciências.

Caneta e números

“A matemática é uma parte essencial do património cultural da humanidade”, dizem Ana Rute Domingos e Maria Manuel Torres, docentes do Departamento de Matemática da Ciências ULisboa, a propósito do Dia Internacional da Matemática, que se celebra a 14 de março.

Miguel Marques de Magalhães Ramalho, vulto destacado da comunidade geológica, que foi vários anos professor catedrático convidado da Ciências ULisboa, faleceu a 8 de março de 2021. "A ele se deve a introdução da conceção moderna de Estratigrafia no curso de Geologia do Departamento, enriquecida por saídas de campo de elevado valor didático", escreve a professora Ana Cristina Azerêdo. Ciências ULisboa apresenta sentidas condolências aos seus familiares, amigos e colegas.

Peixes

O primeiro “Guia de Peixes de Água Doce e Migradores de Portugal Continental” coordenado por Maria João Collares-Pereira, professora da Ciências ULisboa e do cE3c, publicado em 2021, já está à venda. Os peixes de água doce são um dos grupos de vertebrados mais ameaçados em todo o mundo. Portugal não é exceção, com mais de 60% das espécies nativas em risco de extinção.

Vinhas Douro, Portugal

A Comissão Nacional da Organização Internacional da Vinha e do Vinho premiou “The interplay between membrane lipids and phospholipase A family members in grapevine resistance against Plasmopara viticola” com a Distinção CNOIV 2020, atribuído ao melhor trabalho nacional de divulgação, experimentação ou investigação no domínio da viticultura, da autoria de um grupo de investigadores da Ciências ULisboa.

Cristina Santos, Margarida Amaral, Claudina Rodrigues-Pousada, Alexandre Quintanilha, Ana Ponces, Pedro Moradas-Ferreira, Ruy Pinto

É com grande tristeza que informamos o falecimento duma grande mulher cientista, a professora Claudina Rodrigues-Pousada, uma grande mentora de vida na Ciência pelo seu empenho, persistência, foco e determinação.

Joana Carvalho

Joana Carvalho, de 28 anos, investigadora na Fundação Champalimaud, alumna da Universidade de Groningen, na Holanda, e Ciências ULisboa, foi uma das cientistas galardoadas com a 17ª edição das Medalhas de Honra L’Oréal Portugal para Mulheres na Ciência e com uma Individual Fellowships Marie Skłodowska-Curie Actions.

Logotipo Radar

Décima terceira rubrica Radar Tec Labs, dedicada às atividades do Centro de Inovação da Faculdade. A empresa em destaque é a Lean Health Portugal.

Inês Fragata

Doutorada em Biologia Evolutiva pela Ciências ULisboa e atualmente investigadora de pós-doutoramento no cE3c Ciências ULIsboa é uma das quatro jovens cientistas portuguesas premiadas com as Medalhas e vai estudar a contaminação do solo por metais pesados através do tomateiro e ácaros-aranha.

Páginas