Perguntas já respondidas
- Introdução
- O que é o REMBRANDT?
- O que é a SASKIA e o RENOIR?
- Porquê esses nomes, REMBRANDT, SASKIA e RENOIR?
- Funcionamento
- Posso correr o REMBRANDT no meu computador?
- Posso alterar o código do REMBRANDT para o meu uso próprio?
- Que tipo de entidades detecta o REMBRANDT?
- O REMBRANDT só anota textos em português?
- Como funciona o REMBRANDT?
- O REMBRANDT é bom? Consegue anotar TUDO?
- O REMBRANDT não anota as entidades como eu estava à espera!
O que é o REMBRANDT?
O REMBRANDT é um programa que reconhece as entidades mencionadas (EM) no texto (ou seja, nomes de entidades como pessoas, locais ou empresas), e detecta as relações que existem entre as EM. O REMBRANDT está preparado para interpretar entidades que podem ter significados diferentes, e desambigua o seu sentido sempre que é possível.
O REMBRANDT é um programa desenvolvido por mim, Nuno Cardoso, no âmbito do meu doutoramento.
O meu doutoramento insere-se dentro de dois projectos: 1) a Linguateca, sediada no SINTEF, e 2) o GReaSE, da equipa do XLDB, laboratório LaSIGE do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.
O que é a SASKIA e o RENOIR?
A SASKIA é um programa que facilita ao REMBRANDT o acesso aos dados brutos da Wikipédia e da DBpedia, para que se possa extrair conhecimento na altura de classificar as entidades.
O RENOIR é um módulo de interpretação avançada de frases, com o intuito de extrair intenções e significados mais elaborados à volta das EM, e que raciocina sobre essas frases. Por exemplo, o RENOIR pode interpretar a pergunta "Qual é a capital de Portugal?" e, com a ajuda do REMBRANDT e da SASKIA, obter a EM que corresponde à resposta, "Lisboa".
Porquê esses nomes, REMBRANDT, SASKIA e RENOIR?
REMBRANDT é um acrónimo para Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. Um bom acrónimo é o primeiro passo para um bom programa. Ao que parece, também foi um pintor holandês...
SASKIA é um acrónimo para SPARQL and API Service for Knowledge and Information Access. Ao que parece, há uma pessoa chamada Saskia que se casou com o pintor Rembrandt. Há cada coincidência...
RENOIR é um acrónimo para REMBRANDT's Extended NER On Information Retrieval, até arranjar um acrónimo mais elegante. Falando em coincidências, parece que também é um pintor francês...
Posso correr o REMBRANDT no meu computador?
Sim. O REMBRANDT está disponível gratuitamente a todos os interessados (por favor, leia as condições de acesso antes de o descarregar). O REMBRANDT pode ser descarregado e executado em qualquer máquina, desde que tenha o Java 1.6 instalado. Para tal, é necessário descarregar também outros pacotes Java que o REMBRANDT precisa, bem como ter acesso a uma base de dados.
Como fonte de dados, o REMBRANDT precisa de ter uma cópia local das bases de dados da Wikipédia na(s) língua(s) que pretende realizar a anotação. Essas bases de dados podem ser acedidas gratuitamente, e estão referenciadas na página de programas. Também é necessário um gestor de base de dados, como o MySQL, que é gratuito. Em resumo, pode correr o REMBRANDT no seu computador de forma gratuita.
As instruções de instalação estão detalhadas na página de instalação do REMBRANDT.
Posso alterar o código do REMBRANDT para o meu uso próprio?
Sim, o código fonte está incluído nos programas, sob a licença GPL.
Que tipo de entidades detecta o REMBRANDT?
O REMBRANDT detecta e classifica entidades de acordo com as directivas do Segundo HAREM, definidas pela Linguateca em conjunto com outros investigadores na área de processamento computacional do português.
A classificação é feita através de uma categoria genérica, e uma especialização em dois níveis (tipo e subtipo). Há nove categorias principais:
- PESSOA - Inclui nomes de pessoas, cargos, personagens e povos.
- ORGANIZACAO - Inclui empresas, instituições e outras entidades governativas.
- LOCAL - Inclui nomes de locais geográficos e locais virtuais (como são o exemplo de jornais, programas de televisão ou locais na internet).
- TEMPO - Inclui expressões temporais como datas, horas e durações.
- VALOR - Inclui expressões numéricas, quantidades e medidas.
- OBRA - Inclui trabalhos, filmes, quadros, artigos, etc.
- ACONTECIMENTO - Inclui eventos e efemérides relevantes
- COISA - Inclui entidades que referem objectos ou classes de objectos
- ABSTRACCAO - Inclui conceitos abstractos como movimentos intelectuais, áreas de estudo, conceitos filosóficos, etc.
O REMBRANDT só anota textos em português?
O REMBRANDT está preparado para usar regras de anotação noutras línguas, e pode inclusivé anotar textos de diferentes línguas ao mesmo tempo. No entanto, já fiz experiências de anotação em textos em inglês, e reparei que as EM em textos ingleses necessitam de regras específicas para o inglês, uma vez que os resultados obtidos não são nada famosos.
Apesar de não ser uma prioridade, espero arranjar um pouco de tempo livre para criar regras de detecção de entidades para o inglês. Fique atento à página de desejos do REMBRANDT, para saber quando é que planeio incluir as regras de EM inglesas. Seja como for, pode tentar a anotação dos textos em inglês, apesar de os resultados não serem tão bons como acontece com textos em português.
Como funciona o REMBRANDT?
O REMBRANDT aplica duas estratégias no reconhecimento de entidades: 1) uso de regras gramaticais para cada língua, nomeadamente na detecção de evidências dentro e fora da entidade, como é o exemplo da presença de "Dr." no início de nomes de pessoas. 2) extracção de informação da Wikipédia, para obter conhecimento sobre os vários significados associados a cada entidade.
Consulte a seccção dos artigos publicados para mais informações detalhadas, artigos e apresentações sobre o REMBRANDT, pode consultar a secção de documentação.
O REMBRANDT é bom? Consegue anotar TUDO?
O REMBRANDT não é nenhum oráculo, e também falha como qualquer programa feito por um humano. O REMBRANDT participou no Segundo HAREM, uma avaliação específica para sistemas de reconhecimento de entidades mencionadas para português, organizado pela Linguateca em Abril de 2008 com a sua versão 0.7, e entre 10 sistemas, obteve o segundo lugar na tarefa geral de anotação, com um resultado de medida F de 0,567. No caso de entidades de categoria LOCAL, obteve o primeiro lugar, em 8 sistemas, com um valor de medida F de 0,625. Na tarefa de detecção de relações ente entidades, obteve o primeiro lugar entre três sistemas participantes.
Em resumo, o REMBRANDT até que não é mau de todo, mas eu gostaria que fosse ainda melhor. Por isso é que há uma secção para denunciar erros de execução e de anotação, para que possa melhorar o seu sistema de regras e contemplar outros casos que ainda não tinha visto.
O REMBRANDT não anota as entidades como eu estava à espera!
Isto pode acontecer por várias razões, mas em primeiro lugar, note o seguinte: o REMBRANDT anota as entidades em contexto, isto é, procura atribuir o significado que a entidade possui na frase respectiva, e não o significado mais comum que essa entidade tem.
Ou seja, anotar 'Portugal' sempre como um país não é o objectivo do REMBRANDT; A expressão 'Portugal' pode ter outros papéis dependendo do contexto, como é o caso de um grupo de pessoas (no caso de uma equipe desportiva), ou uma organização (no caso de uma decisão governamental). Não será isso que está a acontecer?
Há outros programas/serviços para o português, como o REMBRANDT?
Sim. Muitos deles participaram no HAREM, uma avaliação dedicada a sistemas de reconhecimento de entidades mencionadas para o português, que comparou o seu desempenho na anotação de uma colecção comum de textos. Aqui está a lista, por ordem alfabética:
- O CaGE, desenvolvido por Bruno Martins, é um sistema REM focado no reconhecimento de locais. Pode obter mais detalhes sobre a primeira versão do CaGE no capítulo 8 do livro do Primeiro HAREM, e sobre a segunda versão do CaGE no capítulo 7 do livro do Segundo HAREM
- O Cortex, desenvolvido por Christian Nunes Aranha. Pode obter mais detalhes sobre o Cortex no capítulo 9 do livro do Primeiro HAREM.
- O LX-NER, desenvolvido pelo NLX-Group da Faculdade de Ciências da Universidade de Lisboa, e que possui um serviço web de anotação de textos.
- O Malinche, sistema de identificação de entidades (sem classificação) desenvolvido por Thamar Solorio. Pode obter mais detalhes sobre o Malinche no capítulo 10 do livro do Primeiro HAREM.
- O NERUA, um sistema REM espanhol adaptado para o português e desenvolvido por Óscar Ferrández, Zornitsa Kozareva, Antonio Toral, Rafael Muñoz e Andrés Montoyo. Pode obter mais detalhes sobre o NERUA no capítulo 12 do livro do Primeiro HAREM.
- O Palavras_NER, desenvolvido por Eckhard Bick. Pode obter mais detalhes sobre o Palavras_NER no capítulo 9 do livro do Primeiro HAREM.
- O sistema REM da Priberam, desenvolvido por Carlos Amaral, Helena Figueira, Afonso Mendes, Pedro Mendes, Cláudia Pinto e Tiago Veiga. Pode obter mais detalhes sobre este sistema no capítulo 9 do livro do Segundo HAREM.
- O PorTexTO, desenvolvido por Olga Craveiro, Joaquim Macedo e Henrique Madeira, dedicado a expressões temporais. Pode obter mais detalhes sobre o PorTexTO no capítulo 8 do livro do Segundo HAREM.
- O REMMA, desenvolvido por Liliana Ferreira, António Teixeira e João Paulo da Silva Cunha. Pode obter mais detalhes sobre o REMMA no capítulo 12 do livro do Segundo HAREM.
- O RENA, desenvolvido por João José de Almeida. Pode obter mais detalhes sobre o RENA no capítulo 13 do livro do Primeiro HAREM.
- O SIEMÊS, desenvolvido por Luís Sarmento. Pode obter mais detalhes sobre o SIEMÊS no capítulo 14 do livro do Primeiro HAREM.
- O SEI-Geo, um sistema dedicado à extracção de locais desenvolvido por Marcírio Chaves. Pode obter mais detalhes sobre o SEI-Geo no capítulo 13 do livro do Segundo HAREM.
- O SeRELeP, desenvolvido por Mírian Bruckschen, José Guilherme Camargo de Souza, Renata Vieira e Sandro Rigo. Pode obter mais detalhes sobre o SeRELeP no capítulo 14 do livro do Segundo HAREM.
- O SMELL, desenvolvido pela equipa do LabEL. O SMELL possui um serviço web de anotação de texto.
- O Stencil/NooJ, desenvolvido por Cristina Mota e Max Silbertzein. Pode obter mais detalhes sobre o Stencil/NooJ no capítulo 15 do livro do Primeiro HAREM, e sobre o sistema R3M desenvolvido por Cristina Mota para o Segundo HAREM no capítulo 8 do livro do Segundo HAREM.
- O XIP, desenvolvido por Caroline Hagège, Jorge Baptista e Nuno Mamede, numa colaboração entre o INESC-L2f e a Xerox. Pode obter mais detalhes sobre o XIP no capítulo 15 do livro do Segundo HAREM.
O REMBRANDT é inquestionavelmente o sistema REM que apresenta o melhor desempenho dentro do grupo de sistemas REM dedicados ao português cujo nome pode também designar pintores holandeses.
Como cito o REMBRANDT?
Por favor, cite o REMBRANDT com a seguinte referência:
Nuno Cardoso, REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In Cristina Mota & Diana Santos (eds.). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. 2008.