Ajuda

Perguntas já respondidas


O que é o REMBRANDT?

O REMBRANDT é um programa que reconhece as entidades mencionadas (EM) no texto (ou seja, nomes de entidades como pessoas, locais ou empresas), e detecta as relações que existem entre as EM. O REMBRANDT está preparado para interpretar entidades que podem ter significados diferentes, e desambigua o seu sentido sempre que é possível.

O REMBRANDT é um programa desenvolvido por mim, Nuno Cardoso, no âmbito do meu doutoramento.

O meu doutoramento insere-se dentro de dois projectos: 1) a Linguateca, sediada no SINTEF, e 2) o GReaSE, da equipa do XLDB, laboratório LaSIGE do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.

Voltar ao topo da página


O que é a SASKIA e o RENOIR?

A SASKIA é um programa que facilita ao REMBRANDT o acesso aos dados brutos da Wikipédia e da DBpedia, para que se possa extrair conhecimento na altura de classificar as entidades.

O RENOIR é um módulo de interpretação avançada de frases, com o intuito de extrair intenções e significados mais elaborados à volta das EM, e que raciocina sobre essas frases. Por exemplo, o RENOIR pode interpretar a pergunta "Qual é a capital de Portugal?" e, com a ajuda do REMBRANDT e da SASKIA, obter a EM que corresponde à resposta, "Lisboa".

Voltar ao topo da página


Porquê esses nomes, REMBRANDT, SASKIA e RENOIR?

REMBRANDT é um acrónimo para Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. Um bom acrónimo é o primeiro passo para um bom programa. Ao que parece, também foi um pintor holandês...

SASKIA é um acrónimo para SPARQL and API Service for Knowledge and Information Access. Ao que parece, há uma pessoa chamada Saskia que se casou com o pintor Rembrandt. Há cada coincidência...

RENOIR é um acrónimo para REMBRANDT's Extended NER On Information Retrieval, até arranjar um acrónimo mais elegante. Falando em coincidências, parece que também é um pintor francês...

Voltar ao topo da página


Posso correr o REMBRANDT no meu computador?

Sim. O REMBRANDT está disponível gratuitamente a todos os interessados (por favor, leia as condições de acesso antes de o descarregar). O REMBRANDT pode ser descarregado e executado em qualquer máquina, desde que tenha o Java 1.6 instalado. Para tal, é necessário descarregar também outros pacotes Java que o REMBRANDT precisa, bem como ter acesso a uma base de dados.

Como fonte de dados, o REMBRANDT precisa de ter uma cópia local das bases de dados da Wikipédia na(s) língua(s) que pretende realizar a anotação. Essas bases de dados podem ser acedidas gratuitamente, e estão referenciadas na página de programas. Também é necessário um gestor de base de dados, como o MySQL, que é gratuito. Em resumo, pode correr o REMBRANDT no seu computador de forma gratuita.

As instruções de instalação estão detalhadas na página de instalação do REMBRANDT.

Voltar ao topo da página


Posso alterar o código do REMBRANDT para o meu uso próprio?

Sim, o código fonte está incluído nos programas, sob a licença GPL.

Voltar ao topo da página


Que tipo de entidades detecta o REMBRANDT?

O REMBRANDT detecta e classifica entidades de acordo com as directivas do Segundo HAREM, definidas pela Linguateca em conjunto com outros investigadores na área de processamento computacional do português.

A classificação é feita através de uma categoria genérica, e uma especialização em dois níveis (tipo e subtipo). Há nove categorias principais:

Voltar ao topo da página


O REMBRANDT só anota textos em português?

O REMBRANDT está preparado para usar regras de anotação noutras línguas, e pode inclusivé anotar textos de diferentes línguas ao mesmo tempo. No entanto, já fiz experiências de anotação em textos em inglês, e reparei que as EM em textos ingleses necessitam de regras específicas para o inglês, uma vez que os resultados obtidos não são nada famosos.

Apesar de não ser uma prioridade, espero arranjar um pouco de tempo livre para criar regras de detecção de entidades para o inglês. Fique atento à página de desejos do REMBRANDT, para saber quando é que planeio incluir as regras de EM inglesas. Seja como for, pode tentar a anotação dos textos em inglês, apesar de os resultados não serem tão bons como acontece com textos em português.

Voltar ao topo da página


Como funciona o REMBRANDT?

O REMBRANDT aplica duas estratégias no reconhecimento de entidades: 1) uso de regras gramaticais para cada língua, nomeadamente na detecção de evidências dentro e fora da entidade, como é o exemplo da presença de "Dr." no início de nomes de pessoas. 2) extracção de informação da Wikipédia, para obter conhecimento sobre os vários significados associados a cada entidade.

Consulte a seccção dos artigos publicados para mais informações detalhadas, artigos e apresentações sobre o REMBRANDT, pode consultar a secção de documentação.

Voltar ao topo da página


O REMBRANDT é bom? Consegue anotar TUDO?

O REMBRANDT não é nenhum oráculo, e também falha como qualquer programa feito por um humano. O REMBRANDT participou no Segundo HAREM, uma avaliação específica para sistemas de reconhecimento de entidades mencionadas para português, organizado pela Linguateca em Abril de 2008 com a sua versão 0.7, e entre 10 sistemas, obteve o segundo lugar na tarefa geral de anotação, com um resultado de medida F de 0,567. No caso de entidades de categoria LOCAL, obteve o primeiro lugar, em 8 sistemas, com um valor de medida F de 0,625. Na tarefa de detecção de relações ente entidades, obteve o primeiro lugar entre três sistemas participantes.

Em resumo, o REMBRANDT até que não é mau de todo, mas eu gostaria que fosse ainda melhor. Por isso é que há uma secção para denunciar erros de execução e de anotação, para que possa melhorar o seu sistema de regras e contemplar outros casos que ainda não tinha visto.

Voltar ao topo da página


O REMBRANDT não anota as entidades como eu estava à espera!

Isto pode acontecer por várias razões, mas em primeiro lugar, note o seguinte: o REMBRANDT anota as entidades em contexto, isto é, procura atribuir o significado que a entidade possui na frase respectiva, e não o significado mais comum que essa entidade tem.

Ou seja, anotar 'Portugal' sempre como um país não é o objectivo do REMBRANDT; A expressão 'Portugal' pode ter outros papéis dependendo do contexto, como é o caso de um grupo de pessoas (no caso de uma equipe desportiva), ou uma organização (no caso de uma decisão governamental). Não será isso que está a acontecer?

Voltar ao topo da página


Há outros programas/serviços para o português, como o REMBRANDT?

Sim. Muitos deles participaram no HAREM, uma avaliação dedicada a sistemas de reconhecimento de entidades mencionadas para o português, que comparou o seu desempenho na anotação de uma colecção comum de textos. Aqui está a lista, por ordem alfabética:

Voltar ao topo da página


Como cito o REMBRANDT?

Por favor, cite o REMBRANDT com a seguinte referência:

Nuno Cardoso, REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In Cristina Mota & Diana Santos (eds.). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. 2008.

Voltar ao topo da página

Última alteração há 2 anos atrás.