Notícias
Fique a par das notícias mais recentes, não só relativamente ao REMBRANDT, mas também sobre a área de reconhecimento de entidades mencionadas em geral. Subscreva o canal RSS do REMBRANDT para ter as novidades em primeira mão!
Colocado: Sbado, 3 de Julho de 2010, às 17:00
REMBRANDT 1.1 lançado, e novo visual da página do Rembrandt
O REMBRANDT foi actualizado para a versão 1.1, e o projecto está agora partilhado no Google Code, em http://rembrandt.googlecode.com. Lá, poderá descarregar os pacotes tar.gz, navegar no código fonte e relatar problemas. Adicionalmente, a página do Rembrandt foi totalmente remodelada, para permitir uma melhor interacção no futuro dos serviços de pesquisa, anotação e gestão de colecções que estão na forja.
Colocado: Quarta, 2 de Dezembro de 2009, às 10:00
REMBRANDT 1.0beta-2 foi lançado hoje
A aproximar-me rapidamente da versão 1.0 final, pois só quero adicionar mais uma pequena funcionalidade, e só resolver problemas que surjam. Estou a anotar uma colecção inglesa com 300K documentos, e entretanto resolvi muitos problemas de sincronização à BD, e os processos REMBRANDT conseguem agora anotar batches de 10K documentos sem estourar. Quando a BD está saturada, os processos podem esperar e votar a tentar, até que a BD consifa distribuir mais documewntos por anotar. Ah, e os WOEIDs da GeoPlanet já estão a ser usados para referenciar as entidaes geográficas, e já gero assinaturas geográficas dos documentos.
Esta é a lista de alterações:
- concurrence lock à BD agora é tratada, e tem 5 tentativas
- muitos melhoramentos em sincronização com a DB, os processos estão mais estáveis
- Suporte à referenciação geográfica com WOEIDs do GeoPlanet
- A referenciação temporal (TimeGrounding) está pronta e activa.
- Alguns bugs encontrados e resolvidos.
- Proxies podem agora ser dinamicamente escolhidas para cada serviço web
Para a versão 1.0 final version, tencono terminar as assinaturas temporais, e resolver problemas durante a anotação que entretanto apareçam, e trabalhar no manual do REMBRANDT.
Colocado: Tera, 24 de Novembro de 2009, às 10:00
REMBRANDT 1.0-beta está disponível!
Depois de semanas numa revisão de código estilo 'leve-no-class-untouched', tenho o prazer de anunciar a primeira versão beta do REMBRANDT 1.0.Possui novas características, a melhor das quais é o facto de ser cerca de 10x mais rápido que a última versão 0.8!
As principais alterações são:- Core agora em UTF-8, capaz de processar agora todos os caracteres UTF-8
- Índices nos documentos e nas listas de EM, para acelerar as regras
- Pré-optimização de pares regras/frases consoante as primeiras cláusulas das regras
- Pré-compilação de padrões, gazetteeer agora está estático e final
- Especialização de Detectores para várias funções, com acções pré-determinadas
- Melhorias na sincronização à DB
- Separação completa das classificações semânticas internas do REMBRANDT com as do HAREM
- Reorganização dos almanaques e dos padrões
- Amostragem de gestão de memória
- Detector e MatcherObject re-escritos, agora podem executar acções vindas das regras, e permitem acções a mais de uma NE
- As referências Wikipédia e DBpedia das EM estão agora associadas às classificações semânticas da EM
- Agora, as regras externas podem desambiguam EM já existentes, filtrando as ligações Wikipédia e DBpedia
- As divisões das EM são feitas agora depois das evidências externas, e em regras organizadas
- Vários melhoramentos nos Reader e Writer, possibilidade de ler documentos já anotados previamente, e com estilos de documento/etiqueta diferentes
- Motor de comparação de classificações de NE redesenhado, mais simples e versátil
- Detecção de relações entre entidades revisto, bem mais rápido
- Sistema de rastreio do historial das entidades mencionadas revisto, escreve quando NamedEntity logger é trace
- Courthouse agora só dá veredictos (e não lista de acções), ListOFNE executa os veredictos de forma mais inteligente agora.
- Contagem de termos revista, agora não conta com termos escondidos
- Uso de categorias para classificação agora só usa evidências em plural (ex: Partidos de Portugal sim, Partido Socialista não)
- Resolvido problema de leis, onde as leis específicas estavam a ser preteridas pelas leis genéricas
Colocado: Tera, 23 de Junho de 2009, às 18:00
Novo formato de visualização com balões.
Agora, os textos anotados podem ser exibidos com caixas de diferentes cores, uma para cada categorias de entidades. Clicando nas entidades, aparece um balão com informação adicional sobre a EM.
O serviço tem uma versão rectificada da 0.8.6, que ocasionava um erro no acesso à DBpedia. Ou seja, só agora é que os resultados gerados usam a informação da DBpedia.
Divirtam-se a criar e a matar balões!
Colocado: Segunda, 22 de Junho de 2009, às 10:00
REMBRANDT 0.8.6 já pode ser descarregado. Espero não ter erros significativos (por isso é que mantém a numeração 0.X na versão). Em princípio, resolve problemas relacionados com a escolha da língua, e ligações à BD que têm prejudicado o serviço de rede.
Note que agora os pacotes Saskia e Renoir estão incluídos, mas dependem agora de outros pacotes jar externos que podem ser encontrados no módulo Jena/ARQ da HP, uma interface SPARQL necessária para interagir com a DBpedia.
Vou agora trabalhar na versão 0.8.7. Feedback sobre a versão 0.8.6 é sempre benvindo.
Entretanto, já está pronta uma conta do REMBRANDT no Twitter, para pequenas informações sobre o progresso do módulo, e para receber sugestões rápidas de vocês.
Colocado: Segunda, 15 de Junho de 2009, às 10:00
REMBRANDT 0.8.6 quase a sair do forno, usa a DBpedia na classificação.
Vou lançar o REMBRANDT 0.8.6 brevemente, em pacote jar e como serviço web. Irá usar a classificação da DBpedia segundo a sua ontologia antes de usar a Wikipédia, o que melhora dramaticamente os resultados para textos em inglês.
A versão 0.8.6 tem vários melhoramentos em relação à 0.8.5, mas ainda está algo instável. Assim que resolver uns pequenos problemas, irei colocá-la disponível.
Colocado: Tera, 19 de Maio de 2009, às 15:11
REMBRANDT agora anota em inglês, e o sítio está traduzido para inglês.
O sítio tem agora páginas também em inglês, e o serviço de anotação REMBRANDT pode ser configurado para anotar textos em inglês, usando a base de dados da Wikipédia inglesa. Os feeds agora são dois: notícias em português e notícias em inglês.
Note-se que as regras gramáticas do REMBRANDT para inglês por enquanto são conversões das regras em português, e como tal, não são específicas para o inglês, pelo que o desempenho do REMBRANDT em inglês é pobre por enquanto. O tamanho da Wikipédia inglesa (5x maior que a portuguesa) pode provocar também algum atraso na resposta.
Seja como for, prefiro disponibilizar já o serviço REMBRANDT em inglês, para poder desde já ajustar o serviço às exigências de uma colecção da Wikipédia maior, e para obter desde já retorno dos utilizadores.
Colocado: Tera, 19 de Maio de 2009, às 11:34
Instabilidade no serviço REMBRANDT
O serviço Rembrandt esteve em baixo no último fim-de-semana por causa de um problema causado por diferentes versões de PHP, que já está resolvido. Menos um erro a afectar a estabilidade do serviço. :)
Entretanto, vou deixar o servido de pesquisa do sítio em funcionamento, apesar de a Yahoo! só ter indexado duas páginas até ao momento, só para testar o serviço. Assim sendo, não esperem resultados relevantes por enquanto.
Colocado: Sexta, 8 de Maio de 2009, às 18:02
A monitorizar as vossas anotações.
Como acontece com qualquer lançamento de serviços, os primeiros dias são para limar as arestas que ainda estão por polir. Neste caso, tenho estado a monitorizar as primeiras anotações, para descobrir or primeiros erros de anotação. Para já, aqui fica um resumo do que alterei:
- Entidades como ANJE não são detectadas, porque não existe uma página na Wikipédia sobre essa associação; assim sendo, o REMBRANDT depende de pistas no texto, como a referência a 'uma associação', ou que alguém preside à ANJE. Seja como for, estes casos são interessantes e pretendo abordá-los no futuro.
- Entidades como 'dez anos' não estavam a ser etiquetadas, porque o REMBRANDT estava configurado para anotar segundo as directivas do HAREM, que estipulavam que uma EM precisa de ter pelo menos um termo com letra maiúscula. Já alterei o seu funcionamento para que anote também expressões numerais em texto, mesmo que não tenham letras maiúsculas.
A interface também foi melhorada, de acordo com as sugestões de Daniel Gomes, David Cruz s Rui Lopes, mais legível e simples. Adicionalmente, preparei um sistema de pesquisa local, que irei activar assim que a Yahoo! indexe as páginas do sítio do REMBRANDT.
Colocado: Quinta, 7 de Maio de 2009, às 20:50
Servidor pronto para receber texto!
O serviço esteve em baixo durante a tarde, para uma troca de bastidores. Entretanto, a documentação está mais completa, e aproveitei para usar uma versão do Rembrandt que corrige uns problemas derivados de compilar código Java no JDK de MacOS.
O serviço REMBRANDT está agora limitado a 3000 caracteres, para evitar sobrecargas no servidor. Todo o feedback é benvindo.
Colocado: Tera, 5 de Maio de 2009, às 14:39
Web-Service do Rembrandt é lançado.
O Web-Service do REMBRANDT está finalmente disponível online, para quem quiser anotar textos rapidamente. A versão 0.8.5 do REMBRANDT está disponível para ser usada.