SentiLex-PT01

From XLDB

Jump to: navigation, search



Contents

This resource is no longer supported by the XLDB Group. Please check the new location.



This page is also available in English.


SentiLex-PT01 é um léxico de sentimentos para o português constituído por 6.321 lemas adjectivais (por convenção, na forma masculina singular) e 25.406 formas flexionadas.

As entradas correspondem a adjectivos predicativos humanos (i.e. adjectivos modificadores de nomes humanos), compilados a partir de vários recursos públicos. Os atributos de cada entrada do léxico são:

  1. a polaridade do adjectivo,
  2. o alvo do sentimento e
  3. o método de atribuição de polaridade.

Parte das entradas do léxico tiveram os seus atributos definidos automaticamente por software específico que desenvolvemos para esse efeito.

O SentiLex-PT01 é disponibilizado nesta página (ver abaixo) para utilização segundo uma licença Creative Commons.

Respostas a Perguntas Frequentes (FAQ)

Que posso fazer com o SentiLex-PT01?

O SentiLex é especialmente importante para aplicações de extracção e classificação automática de sentimentos e opiniões em português, em particular as que envolvam entidades humanas.

Qual o formado do SentiLex-PT01?

O SentiLex-PT01 encontra-se disponível em dois ficheiros de texto distintos:

SentiLex-lem-PT01.txt
cada entrada é representada por um lema (convencionalmente, a forma masculina singular) e respectiva categoria grammatical (Adj), acompanhados dos seguintes atributos de sentimento:
  • polaridade (POL), a qual pode ser positiva (1), negativa (-1) ou neutra (0);
  • alvo da polaridade (TG), que corresponde a um sujeito de natureza humana (HUM);
  • atribuição da polaridade (ANOT), a qual pode ter sido efectuada manualmente (MAN) ou automaticamente, por uma ferramenta de anotação desenvolvida pela equipa, designada Judgment Analysis Lexicon Classifier (JALC).

A seguir, encontram-se representadas duas entradas do SentiLex-lem-PT01.txt:

bonito. PoS = Adj; POL = 1; TG = HUM; ANOT = MAN
desligado. PoS = Adj; POL = -1; TG = HUM; ANOT = JALC
SentiLex-flex-PT01.txt 
cada entrada é representada por uma forma flexionada em género (G) e número (N), a qual se encontra associada ao lema respectivo. Para além da informação linguística descrita no dicionário de lemas, neste dicionário cada forma adjectival está classificada como masculina (m) ou feminina (f) e singular (s) ou plural (p).

A seguir, encontram-se representadas quatro entradas do SentiLex-flex-PT01.txt, referentes ao lema bonito:

bonita,bonito. PoS = Adj; GN = fs; POL = 1; TG = HUM; ANOT = MAN
bonitas,bonito. PoS = Adj; GN = fp; POL = 1; TG = HUM; ANOT = MAN
bonito,bonito. PoS = Adj; GN = ms; POL = 1; TG = HUM; ANOT = MAN
bonitos,bonito. PoS = Adj; GN = mp; POL = 1; TG = HUM; ANOT = MAN

Pode um mesmo adjectivo ter várias polaridades associadas?

Cada adjectivo tem associado um único valor de polaridade. As formas homógrafas devem ser tratadas como entradas independentes, com atributos distintos. Por exemplo, quando combinado com um nome humano, o adjectivo fresco poderá ser interpretado como impertinente ou impudente, apresentando uma polaridade negativa. Por outro lado, este adjectivo também pode modificar nomes não-humanos, como é o caso de estilo, exibindo neste caso uma orientação semântica oposta. Para já, apenas os ajectivos humanos estão contemplados no SentiLex-PT01.

Qual é a distribuição de adjectivos no SentiLex-PT01?

No SentiLex-lem-PT01.txt, 3.494 adjectivos encontram-se classificados como negativos, 1.243 como positivos e 1.584 como neutros. No que diz respeito ao método de atribuição de polaridade, 3.585 dos adjectivos foram classificados manualmente e os restantes 2.736 adjectivos foram classificados automaticamente.

Porque são os adjetivos a única categoria gramatical incluída no SentiLex-PT01?

Para já, apenas os adjectivos (humanos) foram incluídos no SentiLex-PT01, mas outras categorias serão adicionadas a este recurso futuramente. O software utilizado foi ajustado para a classificação automática de polaridade dos adjectivos, mas pode ser facilmente adaptado à classificação de outras categorias gramaticais.

Qual é a exactidão do processo de classificação automática de polaridades?

O algoritmo usado tem uma precisão global de 67%. De ressalvar que este é mais preciso na classificação de adjectivos negativos (precisão de 82%) do que na classificação de adjectivos positivos (precisão de 67%). Os casos mais problemáticos envolvem os adjectivos neutros (precisão de 45%).


Matriz de Confusão para a Classificação Automática de Polaridade

Positivo (%) Neutro (%) Negativo (%) Abrangência (%)
Positivo (%) 66,2 26,4 7,4 66
Neutro (%) 18,6 55,7 25,7 56
Negativo (%) 6,1 20,4 73,5 74
Precisão (%) 67 45 82

Quais são os termos de licenciamento do SentiLex-PT01?

O SentiLex-PT01 pode ser utilizado sob uma licença Creative Commons Attribution 3.0 License (CC-BY).

Como posso obter o SentiLex-PT01?

Pode descarregar directamente os dois ficheiros a partir daqui:

Agradecimentos

O SentiLex-PT01 foi desenvolvido pelos seguintes investigadores:

Com financiamento parcial da FCT:

  • UTA-Est/MAI/0006/2009 (project REACTION)
  • SFRH/BPD/45416/2008
  • SFRH/BD/65972/2009.

Publications

| BibTeX source
Mário J. Silva, Paula Carvalho, Carlos Costa, Luís Sarmento, Automatic Expansion of a Social Judgment Lexicon for Sentiment Analysis Technical Report. TR 10-08. University of Lisbon, Faculty of Sciences, LASIGE, December 2010. doi: 10455/6694


Personal tools
Research Lines
Internal Information