Relatório Técnico sobre o repentino



Baixar 418,56 Kb.
Página1/3
Encontro03.05.2017
Tamanho418,56 Kb.
  1   2   3

Relatório Técnico sobre o REPENTINO

REPositório para o reconhecimento de ENTIdades NOmeadas

Luís Sarmento, Porto, Maio de 2005


Resumo 1

Introdução 1

Entidades Nomeadas e Entidades Mencionadas 2

O desenvolvimento do sistema de classificação 3

A gestão inicial do recurso 4

A recolha dos exemplos 5

Pesquisa de exemplos usando Padrões e Corpora 6

Pesquisa de exemplos na Web 8

O sistema de classificação do REPENTINO 9

Abstracções 9

Arte / Media / Comunicação 10

Natureza 11

Eventos 11

Papeladas 12

Locais 12

Organizações 14

Produtos 14

Seres 16


Substâncias 16

Outros 16

O REPENTINO como ferramenta colaborativa 17

Números do REPENTINO 19

19

Planos futuros para o REPENTINO 20



Conclusões 21

Agradecimentos 21





Resumo


Neste relatório descreve-se o REPENTINO, o REPositório para reconhecimento de ENTIdades NOmeadas - http://poloclup.linguateca.pt/repentino/ - um recurso léxico-semântico que armazena cerca de 450 mil exemplos de entidades nomeadas, e que se encontra preparado para receber contribuições adicionais do público em geral. Serão descritos os seus métodos de criação, assim como serão explicadas as razões que levaram ao seu desenvolvimento. Iremos também evidenciar a ligação do REPENTINO com o SIEMÊS, o sistema de reconhecimento de entidades nomeadas com o qual o Pólo do Porto participou no HAREM e que foi a principal motivação para a concepção do REPENTINO. Será feita uma descrição detalhada do seu sistema de classificação e serão apresentadas algumas estatísticas acerca do seu conteúdo actual. Finalmente, serão propostas algumas possibilidades de melhoria do recurso e de eventuais aplicações.

Introdução


O Pólo do Porto da Linguateca participou como concorrente na primeira edição do HAREM, a avaliação conjunta de sistemas de reconhecimento de entidades mencionadas (REM). Apesar de não possuir nenhuma experiência na área do REM, o Pólo do Porto possuía, contudo, algum tecnologia simples para a detecção de terminologia em texto técnico (instalada no Corpógrafo) que poderia servir de base à tarefa de REM e que pensava inicialmente em adaptar. No entanto, ao fim de algumas tentativas de efectuar pequenas adaptações ao sistema de extracção de terminologia, foi notória a dificuldade em fazer as adaptações necessárias para que o sistema fosse cumprir a tarefa de REM. De facto, se por um lado a fase de identificação / delimitação das entidades mencionadas poderia ser facilmente alcançada com um grau de precisão e abrangência elevada, a fase de classificação semântica apresentava dificuldades muito grandes, nomeadamente na necessidade de recorrer à análise de evidências internas e externas acerca da classe e papel semântico das entidades.

Por esse motivo, o Pólo decidiu abandonar a adaptação do seu sistema de extracção terminológica para as tarefas de REM e decidiu-se pela implementação de um sistema de raiz, sabendo à partida que teria algumas limitações de recursos para tal efeito, dada a existência de outros projectos em que se encontrava envolvido. Para poder fornecer o máximo de reutilização ao sistema a ser desenvolvido, optámos por desenvolver um sistema de REM de largo espectro de forma a poder ser integrado noutras aplicações como, por exemplo, o Corpógrafo.

Tendo também já participado na discussão das regras do HAREM, a equipa do Pólo chegou às seguintes conclusões:


  1. o problema do REM pode realmente ser muito abrangente quando se ultrapassam as categorias básicas que tradicionalmente são definidas nas avaliações (Pessoa, Local, Organização, Produto/Obra). Há possibilidade de incluir várias outras categorias quer por especialização das anteriores, quer considerando outras que normalmente não são tidas em conta, como Abstracções, Documentação, etc.

  2. a construção de um sistema de grande abrangência poderá envolver o desenvolvimento de uma enorme base de regras sobre evidências internas/ externas e/ou a construção de almanaques. A construção de regras e de sistemas que as implementam é normalmente complexa, sendo a sua manutenção habitualmente difícil. Os almanaques para português não abundam, não tendo a nossa equipa encontrado qualquer recurso público, para além de algumas listas dispersas contendo nomes de empresas ou de pessoas.

Nestas circunstâncias, a primeira decisão tomada foi a de tentar recolher o máximo de exemplos de entidades nomeadas com o objectivo de melhorar a compreensão do problema. Com suficiente amostra, seria eventualmente possível a construção de regras de identificação e classificação de entidades, ainda que focadas apenas na análise de evidências internas. Por outro lado, e dada a carência de recursos desta natureza em português, pensámos que esta recolha seria uma boa oportunidade de contribuir para o REM independentemente da nossa capacidade de construção de um sistema de REM. Da convergência de todos estes objectivos surgiu o REPENTINO, com o objectivo de ser a melhor contribuição que o Pólo do Porto poderia realizar em tempo útil para a área.


Entidades Nomeadas e Entidades Mencionadas


Um ponto basilar na nossa aproximação consiste na premissa da diferença entre entidade nomeada e entidade mencionada. Entendemos que uma entidade nomeada se refere a uma entidade que possui um nome próprio que é usado na sua individualização, ainda que esse nome próprio seja utilizado por outras entidades, podendo gerar situações ambíguas. Uma entidade nomeada possui propriedades semânticas intrínsecas independentes de contexto, que são constantes relativamente ao seu papel semântico no discurso. Por exemplo, “Porto” nomeia uma cidade, isto é, uma entidade que é um local geográfico/administrativo. O nome “Porto” nomeia, portanto, um local particular (ainda que possa nomear outras entidades), cuja propriedade semântica intrínseca é essa e é constante ou pelo menos estável num dado âmbito temporal. Poderemos eventualmente não concordar com a classificação utilizada ou até com a etiqueta “local geográfico/administrativo”, mas qualquer que seja o sistema de classificação ou a etiqueta usada para a entidade nomeada, a propriedade semântica intrínseca da referida entidade não se altera. Por outro lado, quando se fala de “entidades mencionadas” o problema é bem diferente. E aqui encontramos vários casos bem mais complexos. De facto podemos encontrar situações em que uma determinada entidade é mencionada num contexto que lhe atribui um determinado papel semântico diferente do que lhe é intrínseco, bem como podemos encontrar situações em que um nome de uma determinada entidade bem definida é usado para mencionar implicitamente outras entidades (ex: “Porto candidata-se ao Jogos Olímpicos”, ”A presença do Porto em Macau”, “Tenho o Porto no coração”, “Porto é convidado de honra no Salão do Livro”).

O REPENTINO pretendeu logo desde o início ser apenas um armazém de exemplos de entidades nomeadas, pelo que não inclui nenhuma informação relativa ao contexto. Este objectivo pode parecer uma aproximação demasiado ingénua, mas a alternativa implicava um conhecimento do problema que não possuíamos à partida. Além disso, obrigava a um sistema de classificação que fosse capaz de organizar as entidades não só relativamente às suas propriedades intrínsecas, mas também relativamente às várias possibilidades de menção. Consideramos que um recurso como o REPENTINO, por muito simples que fosse, poderia ser útil em algumas situações. Na pior das hipóteses o REPENTINO poderia servir para construir um sistema de REM minimalista que apenas realizaria operações de consulta e marcaria as entidades encontradas em texto livre com a classificação usada para as armazenar.


O desenvolvimento do sistema de classificação


Uma questão que também se colocou logo à partida foi: que sistema de classificação usar para organizar os exemplos recolhidos? Por outras palavras: mesmo assumindo que iríamos organizar os exemplos recolhidos discriminando-os segundo propriedades intrínsecas, que categorias e subcategorias deveríamos considerar para classificar os exemplos? Esta questão encontrava-se, e ainda se encontra, em aberto. Esta questão é quase equivalente a “como classificar os objectos do mundo”. Por esse motivo decidimos adoptar não um sistema de classificação em si, mas sim uma estratégia para desenvolver um sistema de classificação apropriado ao contexto em causa: o REM. Assim, partindo de um conjunto base de categorias de topo, iguais ou muito próximas daquelas que foram propostas pelo HAREM iríamos especializando o nosso sistema de classificação por criação de novas subcategorias sempre que, e apenas quando, se encontrassem exemplos de entidades em número suficiente que permitissem preencher significativamente essa categoria. Ou seja, para além de um conjunto de categorias semânticas de topo que poderiam facilmente ser consideradas consensuais, apenas iríamos considerar subcategorias cujos exemplos que nelas se enquadrassem tivessem alguma representatividade. A representatividade por sua vez poderia ser estimada através de pesquisas em corpora e de pesquisas na rede, ainda que estes processos sejam sempre falíveis e dados a fenómenos de sub-amostragem. Contudo, pensamos que criar categorias que depois cobrem apenas uma fracção reduzida de exemplos apenas porque nos parece semanticamente correcto incorre também em problemas de reduzida adaptação do repositório à realidade de um sistema de REM.

Esta estratégia de construção teve várias consequências no desenvolvimento do sistema de classificação do REPENTINO, o que gerou algumas diferenças relativamente ao sistema de classificação adoptado pela organização do HAREM (que resultou da combinação de vários consensos). Em primeiro lugar, foi-nos possível especializar mais detalhadamente algumas categorias. Por exemplo, no que se refere a locais, foi-nos possível distinguir entre 16 subcategorias, quase todas elas com mais de 100 exemplos e muitas com alguns milhares, o que é um número de subcategorias muito superior ao proposto pela organização do HAREM. Adicionalmente, encontrámos exemplos que permitiram criar categorias de topo completas, e que depois acabaram por ser divididos detalhadamente. Um destes casos é a categoria “Papeladas” que foi possível preencher com cerca de 4500 exemplos divididos por oito subcategorias. Em muitos destes casos, as categorias e subcategorias encontradas dificilmente seriam consideradas na construção em abstracto de um sistema de classificação, porque parecem pouco importantes. No entanto, foi possível encontrar em grande quantidade exemplos referentes a tais categorias, tanto em corpora como executando pesquisas em motores de pesquisa, o que na nossa opinião demonstra a importância das aproximações “empiristas” durante a fase da conceptualização.

Actualmente, o sistema de classificação do REPENTINO prevê 11 categorias de topo que agregam no total 102 subcategorias, o que demonstra o grau de detalhe a que foi possível chegar. As implicações que este nível de detalhe tem sobre sistemas de REM que usem este recurso serão descritas noutro documento. Uma descrição mais detalhada do sistema de classificação do REPENTINO encontra-se numa próxima secção.

A gestão inicial do recurso


Para assegurar uma recolha e organização sustentada, desenvolvemos localmente uma base de dados para armazenar os exemplos encontrados. Foi também desenvolvida uma interface Web que simplificava a gestão de todas as entidades recolhidas, assim como a organização do sistema de classificação. Através desta interface inicial, que depois de vários desenvolvimentos se veio a transformar na actual interface de administração do REPENTINO, tornava-se possível:


  1. acrescentar, remover, alterar os exemplos recolhidos;

  2. executar com um simples clique pesquisas sobre motores de pesquisa Web (Google e Tumba) para poder encontrar ocorrências de uma dada entidade para proceder à sua validação;

  3. criar, fundir, remover e alterar categorias e subcategorias.

Durante todo o desenvolvimento do REPENTINO esta interface Web mostrou-se fundamental, pois permitiu que grande parte do processo de construção do recurso pudesse ser executado por colaboradores da área da Linguística, já que não exigia a necessidade de conhecimentos de programação para o seu desenvolvimento. Desta forma o esforço de desenvolvimento do REPENTINO encontrava-se dividido entre a equipa do Pólo sem criar “engarrafamentos” do ponto de vista da engenharia. Actualmente, é a bolseira da FLUP Ana Sofia Pinto que assume a responsabilidade de curadora do recurso, podendo desenvolver toda esta tarefa usando a interface de administração desenvolvida.



Adicionalmente, foi possível manter o desenvolvimento do projecto REPENTINO sem prejudicar o objectivo inicial que era o do desenvolvimento de um sistema de REM. Como veremos já em seguida, os dois projectos entraram em simbiose perfeita.

Figura 1 - Uma vista sobre o interface de administração do REPENTINO


  1   2   3


©livred.info 2017
enviar mensagem

    Página principal