
A agência Lusa mantém uma parceria com a Faculdade de Ciências da Universidade do Porto, INESC-TEC, para investigação na extração de narrativas automáticas a partir de textos.
As universidades estão empenhadas em desenvolver o potencial da Inteligência Artificial, procurando soluções para os problemas que existem, e são muitos.
A primeira fase do projeto:
Atualmente, os conteúdos jornalísticos são distribuídos em múltiplos formatos, principalmente através da Web e de aplicações específicas baseadas na Internet aplicações específicas baseadas na Internet que funcionam em smartphones e tablets. O texto é um formato muito importante, mas os leitores (ou, mais precisamente, utilizadores ou consumidores de informação) dependem fortemente de imagens, vídeos, apresentações de diapositivos, gráficos e infografias.
O conteúdo textual continua a ser a principal representação da informação. Qualquer assunto jornalístico (por exemplo, Trump e Rússia) é descrito num ou mais textos produzidos por jornalistas e possivelmente comentados pelos leitores. Muitos desses temas são seguidos durante dias, semanas ou meses. Para apreender um conjunto possivelmente vasto e algo complexo conjunto de artigos noticiosos interligados, os leitores beneficiariam muito com ferramentas que resumissem esses artigos mostrando os principais atores, a sua interação e as suas trajetórias no tempo e no espaço, as suas motivações, os principais eventos, relações causais de eventos e resultados. Por outras palavras, ferramentas que extraiam elementos narrativos e os e os reapresentam em formatos que transmitem a história essencial, mas que são mais eficientemente consumidos pelos utilizadores.
Esta vibrante linha de investigação coloca muitos problemas difíceis na
extração de informação e na produção automática de conteúdos multimédia.
Neste projeto, queremos ser capazes de extrair narrativas/estórias de artigos
noticiosos ou coleções de artigos noticiosos
relacionados (dados não estruturados) sobre o mesmo assunto (ou relacionado),
representando essas narrativas em estruturas de dados
intermédias (dados estruturados) e disponibilizá-las a processos subsequentes
de (geração semi-automática
de apresentações de diapositivos, infografias e outras visualizações,
sequências de vídeo, jogos, etc.).
Em suma, o nosso objetivo no projeto Text2Story é desenvolver um quadro
concetual e uma operacional para a extração de narrativas a partir de fontes
textuais.
O projeto centra-se no processamento automático de textos jornalísticos em
português escrito. A apresentação de
visualizações com base em coleções de textos.
O
atual boom da Inteligência Artificial (IA) e do Processamento de Linguagem
Natural (PNL) assenta em poderosos métodos preditivos que são capazes
de descobrir eficientemente funções complexas que relacionam entradas
observadas com resultados conhecidos.
Por muito eficazes que sejam, sabemos que esses métodos são essencialmente
superficiais e têm dificuldade em explorar ou expor quaisquer ligações
significativas mais profundas entre os dados observados (os sinais) e as suas
origens, significados e causas.
O caminho para colmatar o fosso entre sinais e significado é muito longo, mas
alguns mas estão a ser dados alguns passos promissores e práticos pelos
investigadores de IA e de PNL.
Na PNL, recursos gerais como a Wikipedia, DBPedia, WordNet, ConceptNet e ontologias específicas de um domínio, como a UMLS (Unified Medical Language System) em medicina, estão a ser utilizados para enriquecer a camada semântica da PNL em aplicações importantes, como a sumarização de registos de saúde, a recuperação de informação (RI) de arquivos da Web, sistemas de recomendação, rastreio de histórias no jornalismo e nas redes sociais. A extração de narrativas e a compreensão de histórias baseiam-se nos progressos do PLN para obter automaticamente uma visão global da narrativa a partir de texto livre.
Projectos como o Text2Story são um contributo importante para resolver alguns dos desafios que a extração de narrativas automáticas a partir de textos. Apesar dos avanços recentes, há ainda uma clara falta de corpora anotados no domínio da narrativa.
Tais limitações resultam principalmente do facto de a anotação densa ser e de faltarem simplesmente quadros de anotação abrangentes para as narrativas. No entanto, as atuais computacionais atuais para a extração de narrativas (incluindo as baseadas em ML) têm contribuído com um fluxo de soluções dispersas para a extração dos componentes narrativos mais relevantes: participantes, eventos tempo, espaço e relações entre eles.
O tema tem sido objeto de atenção por parte da comunidade científica.
A série Text2Story@ECIR, e o AI4Narratives@IJCAI2020, ambos organizados pela nossa equipa, e o Narrative Understanding ou o Financial Narrative Processing, são alguns dos exemplos de workshops recentes neste domínio.
Muitos dos desafios enfrentados na extração de narrativas e na compreensão de histórias resultam da relativa semântica das ferramentas de PNL. Por um lado, sem uma melhor compreensão daquilo a que a história se refere, é muito difícil caraterizar corretamente os participantes ou identificar as sequências de acontecimentos no tempo e no espaço.
Por outro lado, embora os actuais quadros de anotação incorporem muitas etiquetas semânticas que permitem que permitem aos anotadores incluir informações valiosas, essa anotação semântica finamente digitada é muito difícil de automatizar devido à falta de conhecimentos de base nas ferramentas de extração de narrativas.
Por conseguinte, é muito importante explorar metodologias automáticas para ligar componentes narrativos a entradas de bases de dados (como na wikificação) e objetos de ontologia. Além disso, em domínios técnicos como a medicina, já existem recursos ontológicos padrão como o UMLS, já existem e devem ser melhor explorados.
Neste projeto, trabalharemos no pipeline desde o texto até à compreensão da história. O nosso objetivo é ir mais longe do que no projeto Text2Story, introduzindo uma camada semântica que nos permite inferir o significado e o sentido da história.
O grande desafio de alto nível para o qual pretendemos contribuir é a compreensão da narrativa. Isto envolve, não só o desenvolvimento de métodos automáticos adequados para extrair relações semânticas complexas entre os componentes narrativos e os diferentes níveis narrativos, mas também para enriquecer a sua representação formal com ligações a conhecimentos e ontologias. O objetivo final é modelar uma representação computacional de uma narrativa sob a forma de uma ontologia narrativa.
1. Temos dois públicos alvo - leitores e jornalistas. Como é que os jornalistas veem estas ferramentas em particular? Com potencial de auxílio ao trabalho jornalístico? Ou apenas para os leitores (i.e. consumo)?
2. Ferramentas de simplificação do conteúdo (ou narrativas) não correm o risco de contribuir para uma certa superficialização do entendimento? Ou, por outro lado, ajudam a atrair mais novos públicos?
3. Tendo aqui um painel que combina a indústria e a academia, podemos discutir um pouco as expetativas. Quais são as expectativas da indústria face à academia? E vice-versa.
4. Importante para nós, porque diretamente ligada a tarefas para o 2º ano do projeto, é a identificação de casos de uso e aplicações que tirem partido destas tecnologias. Gostaria que identificassem ideias de aplicações que tirem partido das tecnologias vistas ao longo do dia.
O debate foi muito interessante, com a partilha de experiências e visões do futuro.
- João Canavilhas, UBI
- João Pedro Fonseca, Lusa
- Rui Barros, Público
- Purificação Silvano - U.Porto e CLUP