Notícias REMBRANDT http://xldb.di.fc.ul.pt/Rembrandt Notícias sobre o sistema de reconhecimento de entidades mencionadas REMBRANDT pt_PT Thu, 01 Dec 2008 00:00:00 GMT Fri, 16 Jul 2010 11:35:23 +0200 REMBRANDT RSS generator ncardoso@xldb.di.fc.ul.pt ncardoso@xldb.di.fc.ul.pt REMBRANDT 1.1 lançado, e novo visual da página do Rembrandt http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1278169200

O REMBRANDT foi actualizado para a versão 1.1, e o projecto está agora partilhado no Google Code, em http://rembrandt.googlecode.com. Lá, poderá descarregar os pacotes tar.gz, navegar no código fonte e relatar problemas. Adicionalmente, a página do Rembrandt foi totalmente remodelada, para permitir uma melhor interacção no futuro dos serviços de pesquisa, anotação e gestão de colecções que estão na forja.

O REMBRANDT foi actualizado para a versão 1.1, e o projecto está agora partilhado no Google Code, em http://rembrandt.googlecode.com. Lá, poderá descarregar os pacotes tar.gz, navegar no código fonte e relatar problemas. Adicionalmente, a página do Rembrandt foi totalmente remodelada, para permitir uma melhor interacção no futuro dos serviços de pesquisa, anotação e gestão de colecções que estão na forja.

Sat, 03 Jul 2010 16:00:00 +0100 http://xldb.di.fc.ul.pt/e61bb9804bc9350376d4e63d14f19683
REMBRANDT 1.0beta-2 foi lançado hoje http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1259744400

A aproximar-me rapidamente da versão 1.0 final, pois só quero adicionar mais uma pequena funcionalidade, e só resolver problemas que surjam. Estou a anotar uma colecção inglesa com 300K documentos, e entretanto resolvi muitos problemas de sincronização à BD, e os processos REMBRANDT conseguem agora anotar batches de 10K documentos sem estourar. Quando a BD está saturada, os processos podem esperar e votar a tentar, até que a BD consifa distribuir mais documewntos por anotar. Ah, e os WOEIDs da GeoPlanet já estão a ser usados para referenciar as entidaes geográficas, e já gero assinaturas geográficas dos documentos.

Esta é a lista de alterações:

  • concurrence lock à BD agora é tratada, e tem 5 tentativas
  • muitos melhoramentos em sincronização com a DB, os processos estão mais estáveis
  • Suporte à referenciação geográfica com WOEIDs do GeoPlanet
  • A referenciação temporal (TimeGrounding) está pronta e activa.
  • Alguns bugs encontrados e resolvidos.
  • Proxies podem agora ser dinamicamente escolhidas para cada serviço web

Para a versão 1.0 final version, tencono terminar as assinaturas temporais, e resolver problemas durante a anotação que entretanto apareçam, e trabalhar no manual do REMBRANDT.

A aproximar-me rapidamente da versão 1.0 final, pois só quero adicionar mais uma pequena funcionalidade, e só resolver problemas que surjam. Estou a anotar uma colecção inglesa com 300K documentos, e entretanto resolvi muitos problemas de sincronização à BD, e os processos REMBRANDT conseguem agora anotar batches de 10K documentos sem estourar. Quando a BD está saturada, os processos podem esperar e votar a tentar, até que a BD consifa distribuir mais documewntos por anotar. Ah, e os WOEIDs da GeoPlanet já estão a ser usados para referenciar as entidaes geográficas, e já gero assinaturas geográficas dos documentos.

Esta é a lista de alterações:

  • concurrence lock à BD agora é tratada, e tem 5 tentativas
  • muitos melhoramentos em sincronização com a DB, os processos estão mais estáveis
  • Suporte à referenciação geográfica com WOEIDs do GeoPlanet
  • A referenciação temporal (TimeGrounding) está pronta e activa.
  • Alguns bugs encontrados e resolvidos.
  • Proxies podem agora ser dinamicamente escolhidas para cada serviço web

Para a versão 1.0 final version, tencono terminar as assinaturas temporais, e resolver problemas durante a anotação que entretanto apareçam, e trabalhar no manual do REMBRANDT.

Wed, 02 Dec 2009 09:00:00 +0000 http://xldb.di.fc.ul.pt/87095d5f198245e668f815b8a7e85b0c
REMBRANDT 1.0-beta está disponível! http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1259053200

Depois de semanas numa revisão de código estilo 'leve-no-class-untouched', tenho o prazer de anunciar a primeira versão beta do REMBRANDT 1.0.Possui novas características, a melhor das quais é o facto de ser cerca de 10x mais rápido que a última versão 0.8!

As principais alterações são:
  • Core agora em UTF-8, capaz de processar agora todos os caracteres UTF-8
  • Índices nos documentos e nas listas de EM, para acelerar as regras
  • Pré-optimização de pares regras/frases consoante as primeiras cláusulas das regras
  • Pré-compilação de padrões, gazetteeer agora está estático e final
  • Especialização de Detectores para várias funções, com acções pré-determinadas
  • Melhorias na sincronização à DB
  • Separação completa das classificações semânticas internas do REMBRANDT com as do HAREM
  • Reorganização dos almanaques e dos padrões
  • Amostragem de gestão de memória
  • Detector e MatcherObject re-escritos, agora podem executar acções vindas das regras, e permitem acções a mais de uma NE
  • As referências Wikipédia e DBpedia das EM estão agora associadas às classificações semânticas da EM
  • Agora, as regras externas podem desambiguam EM já existentes, filtrando as ligações Wikipédia e DBpedia
  • As divisões das EM são feitas agora depois das evidências externas, e em regras organizadas
  • Vários melhoramentos nos Reader e Writer, possibilidade de ler documentos já anotados previamente, e com estilos de documento/etiqueta diferentes
  • Motor de comparação de classificações de NE redesenhado, mais simples e versátil
  • Detecção de relações entre entidades revisto, bem mais rápido
  • Sistema de rastreio do historial das entidades mencionadas revisto, escreve quando NamedEntity logger é trace
  • Courthouse agora só dá veredictos (e não lista de acções), ListOFNE executa os veredictos de forma mais inteligente agora.
  • Contagem de termos revista, agora não conta com termos escondidos
  • Uso de categorias para classificação agora só usa evidências em plural (ex: Partidos de Portugal sim, Partido Socialista não)
  • Resolvido problema de leis, onde as leis específicas estavam a ser preteridas pelas leis genéricas
Recomenda-se uma pequena leitura no sítio do REMBRANDT para estar a par das alterações feitas a nível de configuração. Um manual está na forja, mas entretanto, já dá para brincar com esta versão.Boas anotações!

Depois de semanas numa revisão de código estilo 'leve-no-class-untouched', tenho o prazer de anunciar a primeira versão beta do REMBRANDT 1.0.Possui novas características, a melhor das quais é o facto de ser cerca de 10x mais rápido que a última versão 0.8!

As principais alterações são:
  • Core agora em UTF-8, capaz de processar agora todos os caracteres UTF-8
  • Índices nos documentos e nas listas de EM, para acelerar as regras
  • Pré-optimização de pares regras/frases consoante as primeiras cláusulas das regras
  • Pré-compilação de padrões, gazetteeer agora está estático e final
  • Especialização de Detectores para várias funções, com acções pré-determinadas
  • Melhorias na sincronização à DB
  • Separação completa das classificações semânticas internas do REMBRANDT com as do HAREM
  • Reorganização dos almanaques e dos padrões
  • Amostragem de gestão de memória
  • Detector e MatcherObject re-escritos, agora podem executar acções vindas das regras, e permitem acções a mais de uma NE
  • As referências Wikipédia e DBpedia das EM estão agora associadas às classificações semânticas da EM
  • Agora, as regras externas podem desambiguam EM já existentes, filtrando as ligações Wikipédia e DBpedia
  • As divisões das EM são feitas agora depois das evidências externas, e em regras organizadas
  • Vários melhoramentos nos Reader e Writer, possibilidade de ler documentos já anotados previamente, e com estilos de documento/etiqueta diferentes
  • Motor de comparação de classificações de NE redesenhado, mais simples e versátil
  • Detecção de relações entre entidades revisto, bem mais rápido
  • Sistema de rastreio do historial das entidades mencionadas revisto, escreve quando NamedEntity logger é trace
  • Courthouse agora só dá veredictos (e não lista de acções), ListOFNE executa os veredictos de forma mais inteligente agora.
  • Contagem de termos revista, agora não conta com termos escondidos
  • Uso de categorias para classificação agora só usa evidências em plural (ex: Partidos de Portugal sim, Partido Socialista não)
  • Resolvido problema de leis, onde as leis específicas estavam a ser preteridas pelas leis genéricas
Recomenda-se uma pequena leitura no sítio do REMBRANDT para estar a par das alterações feitas a nível de configuração. Um manual está na forja, mas entretanto, já dá para brincar com esta versão.Boas anotações!
Tue, 24 Nov 2009 09:00:00 +0000 http://xldb.di.fc.ul.pt/dd694713ac85407c61e27a5ae30dffeb
Novo formato de visualização com balões. http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1245772800

Agora, os textos anotados podem ser exibidos com caixas de diferentes cores, uma para cada categorias de entidades. Clicando nas entidades, aparece um balão com informação adicional sobre a EM.

O serviço tem uma versão rectificada da 0.8.6, que ocasionava um erro no acesso à DBpedia. Ou seja, só agora é que os resultados gerados usam a informação da DBpedia.

Divirtam-se a criar e a matar balões!

Agora, os textos anotados podem ser exibidos com caixas de diferentes cores, uma para cada categorias de entidades. Clicando nas entidades, aparece um balão com informação adicional sobre a EM.

O serviço tem uma versão rectificada da 0.8.6, que ocasionava um erro no acesso à DBpedia. Ou seja, só agora é que os resultados gerados usam a informação da DBpedia.

Divirtam-se a criar e a matar balões!

Tue, 23 Jun 2009 17:00:00 +0100 http://xldb.di.fc.ul.pt/e8beaf6c596d7ac52220cf401d08f9ae
REMBRANDT 0.8.6 está pronto. http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1245657600

REMBRANDT 0.8.6 já pode ser descarregado. Espero não ter erros significativos (por isso é que mantém a numeração 0.X na versão). Em princípio, resolve problemas relacionados com a escolha da língua, e ligações à BD que têm prejudicado o serviço de rede.

Note que agora os pacotes Saskia e Renoir estão incluídos, mas dependem agora de outros pacotes jar externos que podem ser encontrados no módulo Jena/ARQ da HP, uma interface SPARQL necessária para interagir com a DBpedia.

Vou agora trabalhar na versão 0.8.7. Feedback sobre a versão 0.8.6 é sempre benvindo.

Entretanto, já está pronta uma conta do REMBRANDT no Twitter, para pequenas informações sobre o progresso do módulo, e para receber sugestões rápidas de vocês.

REMBRANDT 0.8.6 já pode ser descarregado. Espero não ter erros significativos (por isso é que mantém a numeração 0.X na versão). Em princípio, resolve problemas relacionados com a escolha da língua, e ligações à BD que têm prejudicado o serviço de rede.

Note que agora os pacotes Saskia e Renoir estão incluídos, mas dependem agora de outros pacotes jar externos que podem ser encontrados no módulo Jena/ARQ da HP, uma interface SPARQL necessária para interagir com a DBpedia.

Vou agora trabalhar na versão 0.8.7. Feedback sobre a versão 0.8.6 é sempre benvindo.

Entretanto, já está pronta uma conta do REMBRANDT no Twitter, para pequenas informações sobre o progresso do módulo, e para receber sugestões rápidas de vocês.

Mon, 22 Jun 2009 09:00:00 +0100 http://xldb.di.fc.ul.pt/7e4d9858be528c291a53bab99b932a38
REMBRANDT 0.8.6 quase a sair do forno, usa a DBpedia na classificação. http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1245052800

Vou lançar o REMBRANDT 0.8.6 brevemente, em pacote jar e como serviço web. Irá usar a classificação da DBpedia segundo a sua ontologia antes de usar a Wikipédia, o que melhora dramaticamente os resultados para textos em inglês.

A versão 0.8.6 tem vários melhoramentos em relação à 0.8.5, mas ainda está algo instável. Assim que resolver uns pequenos problemas, irei colocá-la disponível.

Vou lançar o REMBRANDT 0.8.6 brevemente, em pacote jar e como serviço web. Irá usar a classificação da DBpedia segundo a sua ontologia antes de usar a Wikipédia, o que melhora dramaticamente os resultados para textos em inglês.

A versão 0.8.6 tem vários melhoramentos em relação à 0.8.5, mas ainda está algo instável. Assim que resolver uns pequenos problemas, irei colocá-la disponível.

Mon, 15 Jun 2009 09:00:00 +0100 http://xldb.di.fc.ul.pt/308dbc55b8ec6c347a6851358903e5a0
REMBRANDT agora anota em inglês, e o sítio está traduzido para inglês. http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1242738660

O sítio tem agora páginas também em inglês, e o serviço de anotação REMBRANDT pode ser configurado para anotar textos em inglês, usando a base de dados da Wikipédia inglesa. Os feeds agora são dois: notícias em português e notícias em inglês.

Note-se que as regras gramáticas do REMBRANDT para inglês por enquanto são conversões das regras em português, e como tal, não são específicas para o inglês, pelo que o desempenho do REMBRANDT em inglês é pobre por enquanto. O tamanho da Wikipédia inglesa (5x maior que a portuguesa) pode provocar também algum atraso na resposta.

Seja como for, prefiro disponibilizar já o serviço REMBRANDT em inglês, para poder desde já ajustar o serviço às exigências de uma colecção da Wikipédia maior, e para obter desde já retorno dos utilizadores.

O sítio tem agora páginas também em inglês, e o serviço de anotação REMBRANDT pode ser configurado para anotar textos em inglês, usando a base de dados da Wikipédia inglesa. Os feeds agora são dois: notícias em português e notícias em inglês.

Note-se que as regras gramáticas do REMBRANDT para inglês por enquanto são conversões das regras em português, e como tal, não são específicas para o inglês, pelo que o desempenho do REMBRANDT em inglês é pobre por enquanto. O tamanho da Wikipédia inglesa (5x maior que a portuguesa) pode provocar também algum atraso na resposta.

Seja como for, prefiro disponibilizar já o serviço REMBRANDT em inglês, para poder desde já ajustar o serviço às exigências de uma colecção da Wikipédia maior, e para obter desde já retorno dos utilizadores.

Tue, 19 May 2009 14:11:00 +0100 http://xldb.di.fc.ul.pt/1e78784b20ca4a766db8091a0bad358b
Instabilidade no serviço REMBRANDT http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1242725640

O serviço Rembrandt esteve em baixo no último fim-de-semana por causa de um problema causado por diferentes versões de PHP, que já está resolvido. Menos um erro a afectar a estabilidade do serviço. :)

Entretanto, vou deixar o servido de pesquisa do sítio em funcionamento, apesar de a Yahoo! só ter indexado duas páginas até ao momento, só para testar o serviço. Assim sendo, não esperem resultados relevantes por enquanto.

O serviço Rembrandt esteve em baixo no último fim-de-semana por causa de um problema causado por diferentes versões de PHP, que já está resolvido. Menos um erro a afectar a estabilidade do serviço. :)

Entretanto, vou deixar o servido de pesquisa do sítio em funcionamento, apesar de a Yahoo! só ter indexado duas páginas até ao momento, só para testar o serviço. Assim sendo, não esperem resultados relevantes por enquanto.

Tue, 19 May 2009 10:34:00 +0100 http://xldb.di.fc.ul.pt/f2635f18a60d75e36a65b3c6cdd4a658
A monitorizar as vossas anotações. http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1241798520

Como acontece com qualquer lançamento de serviços, os primeiros dias são para limar as arestas que ainda estão por polir. Neste caso, tenho estado a monitorizar as primeiras anotações, para descobrir or primeiros erros de anotação. Para já, aqui fica um resumo do que alterei:

  • Entidades como ANJE não são detectadas, porque não existe uma página na Wikipédia sobre essa associação; assim sendo, o REMBRANDT depende de pistas no texto, como a referência a 'uma associação', ou que alguém preside à ANJE. Seja como for, estes casos são interessantes e pretendo abordá-los no futuro.
  • Entidades como 'dez anos' não estavam a ser etiquetadas, porque o REMBRANDT estava configurado para anotar segundo as directivas do HAREM, que estipulavam que uma EM precisa de ter pelo menos um termo com letra maiúscula. Já alterei o seu funcionamento para que anote também expressões numerais em texto, mesmo que não tenham letras maiúsculas.

A interface também foi melhorada, de acordo com as sugestões de Daniel Gomes, David Cruz s Rui Lopes, mais legível e simples. Adicionalmente, preparei um sistema de pesquisa local, que irei activar assim que a Yahoo! indexe as páginas do sítio do REMBRANDT.

Como acontece com qualquer lançamento de serviços, os primeiros dias são para limar as arestas que ainda estão por polir. Neste caso, tenho estado a monitorizar as primeiras anotações, para descobrir or primeiros erros de anotação. Para já, aqui fica um resumo do que alterei:

  • Entidades como ANJE não são detectadas, porque não existe uma página na Wikipédia sobre essa associação; assim sendo, o REMBRANDT depende de pistas no texto, como a referência a 'uma associação', ou que alguém preside à ANJE. Seja como for, estes casos são interessantes e pretendo abordá-los no futuro.
  • Entidades como 'dez anos' não estavam a ser etiquetadas, porque o REMBRANDT estava configurado para anotar segundo as directivas do HAREM, que estipulavam que uma EM precisa de ter pelo menos um termo com letra maiúscula. Já alterei o seu funcionamento para que anote também expressões numerais em texto, mesmo que não tenham letras maiúsculas.

A interface também foi melhorada, de acordo com as sugestões de Daniel Gomes, David Cruz s Rui Lopes, mais legível e simples. Adicionalmente, preparei um sistema de pesquisa local, que irei activar assim que a Yahoo! indexe as páginas do sítio do REMBRANDT.

Fri, 08 May 2009 17:02:00 +0100 http://xldb.di.fc.ul.pt/ac469ea34319dc58f1071da85e1c87b6
Servidor pronto para receber texto! http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1241722200

O serviço esteve em baixo durante a tarde, para uma troca de bastidores. Entretanto, a documentação está mais completa, e aproveitei para usar uma versão do Rembrandt que corrige uns problemas derivados de compilar código Java no JDK de MacOS.
O serviço REMBRANDT está agora limitado a 3000 caracteres, para evitar sobrecargas no servidor. Todo o feedback é benvindo.

O serviço esteve em baixo durante a tarde, para uma troca de bastidores. Entretanto, a documentação está mais completa, e aproveitei para usar uma versão do Rembrandt que corrige uns problemas derivados de compilar código Java no JDK de MacOS.
O serviço REMBRANDT está agora limitado a 3000 caracteres, para evitar sobrecargas no servidor. Todo o feedback é benvindo.

Thu, 07 May 2009 19:50:00 +0100 http://xldb.di.fc.ul.pt/13ff13c6da0528ad188dd7db911f9037
Web-Service do Rembrandt é lançado. http://xldb.di.fc.ul.pt/index.php?lg=pt&do=news#1241527140

O Web-Service do REMBRANDT está finalmente disponível online, para quem quiser anotar textos rapidamente. A versão 0.8.5 do REMBRANDT está disponível para ser usada.

O Web-Service do REMBRANDT está finalmente disponível online, para quem quiser anotar textos rapidamente. A versão 0.8.5 do REMBRANDT está disponível para ser usada.

Tue, 05 May 2009 13:39:00 +0100 http://xldb.di.fc.ul.pt/b65309c5abf2fb96954fab1db0eb3a75