Ir para o conteúdo principal
Página

StorySense: Investigação para resolver dificuldades na extração de narrativas em texto


A agência Lusa mantém uma parceria com a Faculdade de Ciências da Universidade do Porto, INESC-TEC, para investigação na extração de narrativas automáticas a partir de textos.

As universidades estão empenhadas em desenvolver o potencial da Inteligência Artificial, procurando soluções para os problemas que existem, e são muitos.

A primeira fase do projeto:

Text2Story: Extrair narrativas jornalísticas de textos e representá-las numa linguagem de modelação narrativa.


Atualmente, os conteúdos jornalísticos são distribuídos em múltiplos formatos, principalmente através da Web e de aplicações específicas baseadas na Internet aplicações específicas baseadas na Internet que funcionam em smartphones e tablets. O texto é um formato muito importante, mas os leitores (ou, mais precisamente, utilizadores ou consumidores de informação) dependem fortemente de imagens, vídeos, apresentações de diapositivos, gráficos e infografias.

O conteúdo textual continua a ser a principal representação da informação. Qualquer assunto jornalístico (por exemplo, Trump e Rússia) é descrito num ou mais textos produzidos por jornalistas e possivelmente comentados pelos leitores. Muitos desses temas são seguidos durante dias, semanas ou meses. Para apreender um conjunto possivelmente vasto e algo complexo conjunto de artigos noticiosos interligados, os leitores beneficiariam muito com ferramentas que resumissem esses artigos mostrando os principais atores, a sua interação e as suas trajetórias no tempo e no espaço, as suas motivações, os principais eventos, relações causais de eventos e resultados. Por outras palavras, ferramentas que extraiam elementos narrativos e os e os reapresentam em formatos que transmitem a história essencial, mas que são mais eficientemente consumidos pelos utilizadores.


Esta vibrante linha de investigação coloca muitos problemas difíceis na extração de informação e na produção automática de conteúdos multimédia. Neste projeto, queremos ser capazes de extrair narrativas/estórias de artigos noticiosos ou coleções de artigos noticiosos relacionados (dados não estruturados) sobre o mesmo assunto (ou relacionado), representando essas narrativas em estruturas de dados intermédias (dados estruturados) e disponibilizá-las a processos subsequentes de (geração semi-automática de apresentações de diapositivos, infografias e outras visualizações, sequências de vídeo, jogos, etc.).


Em suma, o nosso objetivo no projeto Text2Story é desenvolver um quadro concetual e uma operacional para a extração de narrativas a partir de fontes textuais.
O projeto centra-se no processamento automático de textos jornalísticos em português escrito.  A apresentação de visualizações com base em coleções de textos.


Numa segunda fase, nasceu o StorySense:


StorySense: Alcançar as camadas semânticas das histórias no texto
(2023-2026)

 

O atual boom da Inteligência Artificial (IA) e do Processamento de Linguagem Natural (PNL) assenta em poderosos métodos preditivos que são capazes de descobrir eficientemente funções complexas que relacionam entradas observadas com resultados conhecidos.

Por muito eficazes que sejam, sabemos que esses métodos são essencialmente superficiais e têm dificuldade em explorar ou expor quaisquer ligações significativas mais profundas entre os dados observados (os sinais) e as suas origens, significados e causas.

O caminho para colmatar o fosso entre sinais e significado é muito longo, mas alguns mas estão a ser dados alguns passos promissores e práticos pelos investigadores de IA e de PNL.

Na PNL, recursos gerais como a Wikipedia, DBPedia, WordNet, ConceptNet e ontologias específicas de um domínio, como a UMLS (Unified Medical Language System) em medicina, estão a ser utilizados para enriquecer a camada semântica da PNL em aplicações importantes, como a sumarização de registos de saúde, a recuperação de informação (RI) de arquivos da Web, sistemas de recomendação, rastreio de histórias no jornalismo e nas redes sociais. A extração de narrativas e a compreensão de histórias baseiam-se nos progressos do PLN para obter automaticamente uma visão global da narrativa a partir de texto livre.

 Projectos como o Text2Story são um contributo importante para resolver alguns dos desafios que a extração de narrativas automáticas a partir de textos. Apesar dos avanços recentes, há ainda uma clara falta de corpora anotados no domínio da narrativa.

 Tais limitações resultam principalmente do facto de a anotação densa ser e de faltarem simplesmente quadros de anotação abrangentes para as narrativas. No entanto, as atuais computacionais atuais para a extração de narrativas (incluindo as baseadas em ML) têm contribuído com um fluxo de soluções dispersas para a extração dos componentes narrativos mais relevantes: participantes, eventos tempo, espaço e relações entre eles.

O tema tem sido objeto de atenção por parte da comunidade científica.

 A série Text2Story@ECIR, e o AI4Narratives@IJCAI2020, ambos organizados pela nossa equipa, e o Narrative Understanding ou o Financial Narrative Processing, são alguns dos exemplos de workshops recentes neste domínio.

 Muitos dos desafios enfrentados na extração de narrativas e na compreensão de histórias resultam da relativa semântica das ferramentas de PNL. Por um lado, sem uma melhor compreensão daquilo a que a história se refere, é muito difícil caraterizar corretamente os participantes ou identificar as sequências de acontecimentos no tempo e no espaço.

Por outro lado, embora os actuais quadros de anotação incorporem muitas etiquetas semânticas que permitem que permitem aos anotadores incluir informações valiosas, essa anotação semântica finamente digitada é muito difícil de automatizar devido à falta de conhecimentos de base nas ferramentas de extração de narrativas.

 Por conseguinte, é muito importante explorar metodologias automáticas para ligar componentes narrativos a entradas de bases de dados (como na wikificação) e objetos de ontologia. Além disso, em domínios técnicos como a medicina, já existem recursos ontológicos padrão como o UMLS, já existem e devem ser melhor explorados.

 Neste projeto, trabalharemos no pipeline desde o texto até à compreensão da história. O nosso objetivo é ir mais longe do que no projeto Text2Story, introduzindo uma camada semântica que nos permite inferir o significado e o sentido da história.

 O grande desafio de alto nível para o qual pretendemos contribuir é a compreensão da narrativa. Isto envolve, não só o desenvolvimento de métodos automáticos adequados para extrair relações semânticas complexas entre os componentes narrativos e os diferentes níveis narrativos, mas também para enriquecer a sua representação formal com ligações a conhecimentos e ontologias. O objetivo final é modelar uma representação computacional de uma narrativa sob a forma de uma ontologia narrativa.



Workshop para apresentação dos trabalhos em curso no âmbito do projeto StorySense


No auditório do Instituto Pernambucano, no Porto, realizou-se no dia 07 de maio um 'workshop' para apresentação do desenvolvimento de vários trabalhos de investigação que estão a ser executados pela equipa do INESC-TEC.

Depois da apresentação, realizou-se uma mesa-redonda sobre este tema tão atual da Inteligência Artificial e o Jornalismo.

Em cima da mesa estiveram quatro temas propostos pela organização:

1. Temos dois públicos alvo - leitores e jornalistas. Como é que os jornalistas veem estas ferramentas em particular? Com potencial de auxílio ao trabalho jornalístico? Ou apenas para os leitores (i.e. consumo)?

 

2. Ferramentas de simplificação do conteúdo (ou narrativas) não correm o risco de contribuir para uma certa superficialização do entendimento? Ou, por outro lado, ajudam a atrair mais novos públicos?

 

3. Tendo aqui um painel que combina a indústria e a academia, podemos discutir um pouco as expetativas. Quais são as expectativas da indústria face à academia? E vice-versa.

 

4. Importante para nós, porque diretamente ligada a tarefas para o 2º ano do projeto, é a identificação de casos de uso e aplicações que tirem partido destas tecnologias. Gostaria que identificassem ideias de aplicações que tirem partido das tecnologias vistas ao longo do dia.

 

O debate foi muito interessante, com a partilha de experiências e visões do futuro.
Falou-se muito de jornalismo, mas também de investigação e de Inteligência Artificial.
Que o Jornalismo é cada vez mais essencial para as sociedades tão fustigadas por excesso de informação é um facto. Que os jornalistas continuarão sempre a ser necessários, apesar das potencialidades da IA também ninguém nega.
O que ninguém sabe é qual vai ser a tendência de consumo do produto jornalístico, sendo já evidente que as novas gerações não leem jornais e consomem praticamente tudo através do telemóvel (tablet) e do computador. 
Os formatos simples, gráficos, visuais, com vídeo, áudio, imagem, grafismos, infografias, de percepção rápida ganham terreno e são, porventura, um dos caminhos óbvios. 

A mesa-redonda contou com:

- João Canavilhas, UBI

- João Pedro Fonseca, Lusa

- Rui Barros, Público
- Purificação Silvano  - U.Porto e CLUP


João Pedro Fonseca
Coordenador da Escola Lusa
















Para mais informação sobre o projeto e os contactos da equipa de investigadores:

https://storysense.inesctec.pt/

Outra pista para abordagens interessantes:

https://generative-ai-newsroom.com/


João Pedro Fonseca
Escola Lusa