Relatório Técnico sobre o repentino



Baixar 418,56 Kb.
Página3/3
Encontro03.05.2017
Tamanho418,56 Kb.
1   2   3

Organizações


Esta categoria inclui todas as organizações, isto é, todas as entidades constituídas por mais de uma pessoa que existem e funcionam como um todo. As organizações, normalmente, têm objectivos, um conjunto de regras que as rege e uma estrutura interna, o que não se verifica em simples grupos de pessoas ou ajuntamentos. As 'Organizações' podem ser divididas nas seguintes subcategorias:


  1. Civil-Militar - organizações com propósitos militares e/ou civis/sociais, como é o caso dos bombeiros, hospitais, exército, etc. Ex:  'Bombeiros Voluntários da Sertã', 'Guarda Nacional Republicana', '2º Esquadrão de Aviação do Exército', 'Cruz Vermelha', etc.

  2. Clubes - esta sub-categoria destina-se exclusivamente a clubes desportivos. Ex: 'Futebol Clube do Porto', 'Sport Clube Dragões Sandinenses', 'Mocidade Invicta Futebol Clube', 'Sport Lisboa e Benfica', 'Sporting Clube de Portugal', etc.

  3. Desportiva - organizações directamente ligadas ao desporto, como federações, associações desportivas, etc. Ex: 'Futebol Clube do Porto SAD', 'Federação Portuguesa de Andebol', 'Associação de Patinagem do Porto', 'Associação Butokukai de Karate-do', 'Liga de Clubes', etc.

  4. Empresa - organizações claramente com fins lucrativos. Ex: 'TAP Air Portugal', 'SEIKO EPSON Corporation', 'Plátano Editora', 'Alfa Romeo', 'Agência Associated Press', etc.

  5. Ensino/I&D - organizações, públicas ou privadas, ligadas à educação ou à investigação e desenvolvimento. Ex: 'Universidade do Porto', 'Faculdade de Economia', 'Escola Secundária de Barcelinhos', 'Observatório Afonso de Chaves', 'Laboratório Nacional de Luz Síncrotron', etc.

  6. Governamental/Administrativa - organizações oficiais criadas por governos, como é o caso dos Ministérios, Departamentos, Secretarias, Câmaras, etc. Ex: 'Câmara Municipal da Azambuja', 'Consulado da Holanda', 'Embaixada da República de São Tomé e Príncipe', 'Junta de Freguesia de Bemposta', 'Ministério do Comércio Externo', 'Secretaria de Estado das Pescas', etc.

  7. Grupos de Interesse - organizações criadas para proteger os interesses de um qualquer grupo social ou económico, como é o caso dos sindicatos, partidos políticos, etc. Ex: 'Ordem dos Médicos', 'Associação Comercial de Lisboa', 'Cooperativa dos Operários da Arrábida', 'PSD', 'Sindicato dos Professores do Norte', etc.

  8. Religiosa - todas as organizações e/ou grupos religiosos. Ex: 'Ordem das Carmelitas Descalças', 'Igreja Católica', 'Testemunhas de Jeová', 'Liga dos Servos de Deus', 'Associação Cristã de Moços', etc.

  9. Socio-Cultural - organizações vocacionadas para assuntos sócio-culturais ou que trabalham para uma causa pública, como fundações, associações, etc. Ex: Companhia de Teatro 'A Barraca', 'Fundação Calouste Gulbenkian', 'Liga de Amigos da Fundação Aurélio Amaro Diniz', etc.

Produtos


Esta categoria inclui todo o tipo de produtos: comerciais, financeiros, farmacêuticos, industriais, etc. Esta categoria pode ser confundida com a categoria 'Organização-Empresa', no entanto, há uma diferença importante entre elas, já que o 'Produto' deverá referir-se a um modelo específico, enquanto que a 'Organização' referir-se-á ao produtor do produto. Isto é, no REPENTINO "Ford" seria armazenada na categoria ORGANIZAÇÃO-EMPRESA, enquanto que "Ford Mustang" seria armazenado na categoria PRODUTO-VEÍCULO, uma vez que se refere a um produto comercial específico. Os produtos poderão ser divididos nas seguintes subcategorias:


  1. Ferramentas/Instrumentos - nesta sub-categoria incluem-se as ferramentas e instrumentos que possuem uma funcionalidade práctica latente e que não estão directamente associados a uma marca, como é o caso de sondas, ferramentas de medição, armamento, etc. Ex: 'contador Geiger', 'Voyager', 'chave Philips', 'detector Geiger-Müller', 'Espectómetro Planetário de Fourier', 'Mars Express', etc.

  2. Consumíveis - produtos normalmente para consumo próprio que têm uma data limite para serem consumidos, como perfumes, produtos de beleza, bebidas, produtos alimentares, etc. Ex: 'Martini', 'óleo Fula', 'Allure', 'CHANEL Nº 5', 'Coca-Cola Diet',  'creme Nivea', 'Café da Normandia', 'Atum Ramirez', etc.

  3. Electrónica/Electrodomésticos - aqui incluir-se-ão telemóveis, computadores, televisores, ecrãs, máquinas de barbear, escovas de dentes eléctricas, leitores de CD/DVD, máquinas de lavar, secadores, auscultadores, fogões, microondas, batedeiras, cafeteiras, etc. Ex: 'iPod', 'Nokia 6600', 'Philishave Cool Skin', 'Oral-B Professional Care 7500',  'ecrã LCD', 'HP iPAQ hx2110', etc.

  4. Financeiro - produtos normalmente fornecidos por entidades bancárias ou seguradoras, como créditos, contas Poupança, seguros, etc. Ex: 'Títulos de Crédito', 'Certificados de Aforro', 'Crédito Habitação BPI', 'Seguro de Vida Allianz', MBNet', etc.

  5. Formato - formatos e linguagens informáticas. Ex: 'PDF', 'CD', 'DVD', 'VHS', 'XLS', 'TXT', 'Perl', 'Java', etc.

  6. Gastronomia - sub-categoria onde se incluem todos os elementos da gastronomia nacional e internacional. Ex: 'Açorda Alentejana', 'Pastéis de Belém', 'Pão-de-ló', 'Bacalhau à Zé do Pipo', 'Tripas à Moda do Porto', 'Lasanha', 'Sushi', 'Moqueca de Camarão', 'Moussaka', etc.

  7. Inspecção/Exame - inspecções, vistorias, assim como exames médicos. Ex: 'Vistoria Sanitária', 'TAC', 'Inspecção Técnica de Veículos', 'Teste do Pezinho', 'Biópsia', 'Ecografia', etc.

  8. Médico/Farmacêutico - sub-categoria onde se incluem todos os produtos médico-farmacêuticos. Ex: 'Aspirina-C', 'Viagra', 'Ben-u-ron', 'Nimed', 'Actifed', 'Sargenor 5', etc.

  9. Marcas - Ex: 'AEG', 'Agros', 'Adidas', 'Alardo', 'Aprilia', 'Cadbury's', 'Seiko', 'Armani', 'Auchan', 'Ermenegildo Zegna', 'Miele', 'HP', 'Apple', 'Aquafresh', etc.

  10. Serviços e Recursos - serviços como linhas telefónicas, Internet ou televisão por cabo, assim como recursos disponíveis online ou em suporte informático, como por exemplo, bases de dados. Ex: 'ADSL', 'NetCabo', 'Projecto Vercial', 'Wikipédia', etc.

  11. Sistemas Informáticos e Aplicações - sistemas e aplicações informáticas, que normalmente pressupõem um processo de instalação. Ex: 'Adobe Reader 6', 'Internet Explorer 5', 'Microsoft Windows XP', 'Microsoft Word 2003', 'McAfee Anti-Virus', 'Nero6', etc.

  12. Tarefa Manual/Artesanato - qualquer produto fabricado manualmente. Ex: 'tapetes de Arraiolos', 'Lenços dos Namorados', 'galo de Barcelos', etc.

  13. Vestuário/Utilidades - peças de vestuário, calçado, acessórios, mas também outras utilidades como brinquedos, material escolar, etc. Ex: 'Barco Pirata Playmobil', 'vestido Fátima Lopes', 'sapatos Jimmy Choo', 'esferográfica Bic', 'cola UHU Stick', 'óculos de sol Valentino', 'relógio Citizen', 'Swatch Ursinhos', etc.

  14. Veículos - aqui incluem-se todo o tipo de veículos desde os automóveis aos aviões, passando pelos tanques de guerra, pelas motas, bicicletas, trotinetes, barcos, helicópteros, etc. Ex: 'Boeing 747', 'Audi TT 1.8T Roadster', 'Harley Davidson XL 1200C Sportster', 'Flybridge P56', 'helicóptero Alouette II', etc.

Seres


Nesta categoria incluem-se todos os seres reais, ficcionais ou mitológicos, assim como os mitos. É também nesta categoria que se inserem os grupos de pessoas que não constituam claramente uma organização, tais como grupos étnicos e geopolíticos. Os 'Seres' poderão ser divididos nas seguintes subcategorias:

  1. Colectivo Humano - grupos de humanos (reais ou ficcionais) conhecidos normalmente como grupo, isto é, grupos cuja identidade de grupo é mais forte do que a identidade individual dos seus membros, como é o caso de equipas, bandas, duos, famílias, etc. Ex: 'The Rolling Stones', 'Bonnie and Clyde', 'os irmãos Dalton', 'os Sete Anões', 'família Melo Campos', 'os Vieira de Mello', etc.

  2. Geopolítico/Étnico/Ideológico - grupos de pessoas (reais ou ficcionais) que partilhem a mesma identidade geográfica, política, étnica ou ideológica, embora não pertençam a uma organização estruturada. Ex: 'Incas', 'Budistas', 'Dadaístas', 'Nudistas' 'Marcianos', 'Atlantes', 'Visigodos', etc.

  3. Humano - qualquer pessoa (real, ficcional ou mito) viva ou morta. Ex: 'Mr. Bean', 'Othello', 'Branca de Neve', 'Brad Pitt', 'Papa', 'Rainha de Inglaterra', 'Ulisses', 'Mick Jagger', 'Vladimir Putin', 'Adalberto Alves', etc.

  4. Mitológico - toda e qualquer entidade mitológica. Ex: 'Pégaso', 'Minotauro', 'Ícaro', 'Adamastor', 'Afrodite', 'Cupido', etc.

  5. Não-Humano - qualquer ser (real ou ficcional) que não seja humano, vivo ou morto, como é o caso dos animais de estimação, monstros, etc., com excepção das entidades mitológicas. Ex: 'Laika' (primeira cadela no espaço), 'Bambi', 'Lassie', 'Winnie the Pooh', 'Monstro do Lago Ness', 'Samwise Gamgee', 'Pantera Cor-de-Rosa', 'Gollum', 'Donald', etc.

Substâncias


Nesta categoria incluem-se substâncias, elementos e minérios. As 'Substâncias' poderão ser divididas nas seguintes subcategorias:


  • Grupo - aqui incluem-se grupos de substâncias. Ex: 'álcool', 'cetonas', 'aldeídos', 'monossacarídeo', 'esterol', 'glicose', etc.

  • Minério - incluem-se aqui todos os minérios, assim como pedras preciosas. Ex: 'urânio', 'Ágata cornalina', 'rubi', 'opalina', 'pirite', 'pedra de Moleanos', etc.

  • Substância - Ex: 'Paracetamol', 'H2O', 'anilina', 'penicilina', 'ácido ascórbico', 'acetilsalicilato de lisina', 'boldenona', 'hematoxilina', 'lecitina de soja', 'lidocaína', 'Mebendazol', 'nandrolona', 'Oxibutinina', etc.

Outros


Nesta categoria inserem-se dois tipos de elementos:


  • exemplos que não foram encaixados em nenhuma das categorias anteriores e que aguardam a existência de uma categoria própria; ou

  • particulas e unidades léxicais que podem ser úteis para tarefas de classificação de entidades nomedas / mencionadas, como por exemplo nomes de unidades de medida, moedas, profissões, títulos pessoais, etc.

O REPENTINO como ferramenta colaborativa


Um dos objectivos principais do REPENTINO é o de fornecer uma amostra representativa de exemplos de entidades nomeadas que sirva de base ao desenvolvimento de sistemas de reconhecimento de entidades nomeadas. A maior parte dos almanaques disponíveis para este efeito são compilados tematicamente e apresentam normalmente dois tipos de problemas:


  1. Cobertura restrita à área base em que foram compilados

  2. Enorme desproporção entre o número de entidades armazenadas e aquelas que é normalmente possível encontrar realmente em texto.

Para minimizar estes dois problemas, e para evitar um enviesamento do recurso relativamente à nossa perspectiva, foi decidido abrir a construção do REPENTINO ao público em geral, sendo que para isso se construiu uma interface Web destinada à recolha de sugestões via rede. Procurou-se assim resolver vários problemas.

Em primeiro lugar, os exemplos sugeridos podem permitir a abertura de novas categorias que não tivessem sido previstas por nós. As ideias e os conhecimentos espalhados pela comunidade são obviamente muito mais abrangentes que aquilo que seríamos capazes de idealizar sozinhos, permitindo assim recolher uma colecção muito mais abrangente de exemplos. Por outro lado, as sugestões realizadas pela comunidade são tendencialmente mais úteis, já que reflectem o conhecimento das entidades relevantes e frequentes. As sugestões realizadas serão previsivelmente e principalmente entidades sobre as quais realmente se produz referência, já que são estas que populam o conhecimento colectivo da comunidade. Desta forma, diminui-se o segundo problema apontado anteriormente. Por outro lado, se o volume de sugestões for elevado, poderemos até manter um desenvolvimento distribuído deste recurso o que facilitará a sua evolução sustentada. Este objectivo parece um pouco mais difícil mas ultimamente tem-se assistido a vários exemplos de construção colectiva de recursos, nomeadamente o Wikipedia, pelo que não seria surpreendente se um fenómeno semelhante, embora a uma escala muito menor, ocorresse com o REPENTINO.

Durante o período de redacção deste relatório foi feita alguma publicidade informal ao REPENTINO via e-mail, focando sobre o conjunto de contactos próximos dos elementos do Pólo. Nestes contactos foi explicado informalmente o objectivo do REPENTINO e foi também pedida colaboração com a sugestão de alguns exemplos de nomes de entidades que fizessem essencialmente parte do domínio de conhecimento do colaborador. Este detalhe é importante, pois optimiza a capacidade de recolha de exemplos de entidades nomeadas associadas a domínios específicos que normalmente são de difícil compilação.



Não temos ainda neste momento resultados que possam medir o impacto destas medidas publicitárias mas estamos optimistas relativamente às ideias que deverão surgir em função das sugestões feitas pelos eventuais colaboradores.

Figura 3 - Página de abertura da interface de utilizador do REPENTINO

Figura 4 - A interface de submissão de sugestões

Números do REPENTINO


Neste momento, o REPENTINO armazena cerca 450 mil exemplos de entidades armazenados pelas 11 categorias de topo. Na próxima tabela são apresentados os valores da distribuição dos exemplos.
Tabela 1 - A distribuição do exemplos por categorias (valores absolutos)

Categoria

#

Abstracções

5807

Arte/Media/Comunicação (A/M/C)

15232

Eventos

25357

Locais

49451

Outros

1771

Natureza

867

Organizações

46869

Papeladas

4427

Produtos

9199

Seres

286297

Substâncias

1468

Total

446745


Figura 5 - A distribuição do exemplos por categorias (valores relativos)
Destes dados destaca-se a forte contribuição da categoria Seres (e em particular da subcategoria Humano) que totalizam cerca de dois terços do total de entidades armazenadas no REPENTINO. Também importantes são as contribuições das categorias Locais, Organizações e Eventos. Menos significativas mas ainda notórias são as categorias Arte/Media/Comunicação, Produtos e Papeladas e Abstracções. Quase sem expressão encontramos as restantes categorias (Natureza, Substâncias e Outros). Daqui se pode concluir que há um forte desiquilibrio na distribuição de exemplos o que sugere que algumas medidas de correcção poderão ser necessárias. Uma dessa medidas poderá passar pela eliminação de uma porção significativa dos exemplos da subcategoria Seres::Humanos, que será neste momento certamente caracterizada por uma elevada redundância.

Dados actualizados e mais detalhados sobre cada uma destas categorias, incluindo a distribuição por subcategorias podem ser consultados na página de estatísticas do REPENTINO.


Planos futuros para o REPENTINO


A génese do REPENTINO está intimamente ligada ao SIEMÊS mas pensamos que tem potencialidades para ser um recurso autónomo e interessante para outros usos que não apenas o actual SIEMÊS.

Considerando primeiro as possibilidades de interacção com o SIEMÊS, seria importante obter uma versão simplificada do actual REPENTINO que funcionasse como base de conhecimento do SIEMÊS. Esta versão simplificada seria composta por um número de exemplos bastante inferior ao actual, mas deveria manter ainda assim um elevado nível de abrangência e representatividade. Tal recurso, uma forma mínima do REPENTINO permitiria um significativo aumento do desempenho computacional do SIEMÊS sem alteração do seu modo de funcionamento, o que facilitaria a sua aplicação a grandes colecções. Um exemplo de uma possível simplificação seria a redução do número de exemplos de nomes próprios de pessoas armazenados no REPENTINO dos actuais cerca de 280 mil para um número muito inferior (20%?) que ainda assim manteria exemplos de todos os unigramas ou bigramas existentes nos exemplos. Talvez fosse possível executar uma operação semelhante em muitas das subcategorias do REPENTINO.

Relativamente à melhoria do próprio recurso, há vários acrescentos e melhorias que parecem ser importantes e que permitiriam enriquecer o recurso com informação útil para outros estudos.

Em primeiro lugar, seria importante obter informação acerca da frequência de cada um dos exemplos armazenados, tendo em conta as ocorrências em corpora ou na rede. Uma possibilidade de conseguir obter essa informação passaria por contar o número de ocorrências no WPT03 de cada uma das entidades, recorrendo ao BACO (BAse de Co-Ocorrências). Testes realizados com uma versão simplificada do BACO mostraram ser viável obter essa informação em tempo útil, já que as pesquisas sobre a totalidade de colecção podem ser realizadas em média em menos de 20 segundos por entidade. Apesar deste tempo poder parecer elevado (apenas 3 a 4 exemplos por minuto), especialmente tendo em conta o elevadíssimo número de entidades já armazenado no REPENTINO, não o será se considerarmos que esta informação é particularmente interessante apenas para algumas subcategorias do repositório, nomeadamente organizações, locais e eventos, que apesar de tudo representam um pequena porção do REPENTINO. Em todo o caso, esta informação pode ser obtida por fases usando uma estratégia distribuída (BACO instalado em várias máquinas do Pólo do Porto).

Uma outra possibilidade interessante, sob a qual já se realizaram algumas experiências, é a extracção de contextos existentes para cada um dos exemplos. Novamente, isso é possível concretizar usando o BACO, já que o processo de recolha dos contextos não difere muito do da obtenção das contagens, podendo inclusive ser realizado em simultâneo. O objectivo desta recolha de contextos é o de poder permitir estudar com algum detalhe situações interessantes e proveitosas para tarefas de identificação de entidades nomeadas / mencionadas. Por exemplo, o agrupamento dos contextos associados a todos os exemplos de uma determinada subcategoria permite obter uma panorâmica das várias possibilidades de como as entidades dessa categoria podem ser mencionadas. A mesma informação pode também ser usada para criar padrões que permitam a identificação / recolha em corpora de novos exemplos da mesma subcategoria. Não foram realizadas ainda experiências a este nível mas parece-nos que existe aqui algum potencial por explorar.

Finalmente, parece ser relativamente simples executar um cruzamento entre o REPENTINO e o BACO e gerar um índice sobre o BACO usando as entradas do BACO. O BACO desta forma expandido permitiria todo um conjunto de pesquisas rápidas que envolvessem os exemplos, por exemplo testar co-ocorrências ou relações entre exemplos/entidades, possibilitando um novo ambiente de estudo para os tópicos associados ao reconhecimento de entidades nomeadas / mencionadas.


Conclusões


O REPENTINO é um recurso em construção cujo interesse foi parcialmente validado através da sua utilização no SIEMÊS. O REPENTINO tem crescido e aposta numa estratégia de construção colaborativa, embora não esteja ainda provado que essa possibilidade seja eficaz e produtiva. Contudo, trata-se de um recurso que permite que desenvolvedores de sistemas de reconhecimento de entidades nomeadas / mencionadas para português não partam do zero, quer na modelização do problema, quer na necessidade de criar recursos auxiliares. O sistema de classificação do REPENTINO está relativamente evoluído e prevê mais de 100 subcategorias, o que o torna bastante abrangente e detalhado. O conteúdo do REPENTINO é também abundante e parece ser capaz de cobrir representativamente uma percentagem significativa do problema. Há uma série de possibilidades ainda por explorar que poderão ser úteis em diversos contextos num futuro próximo.

Agradecimentos


Este trabalho foi financiado pela Fundação para a Ciência e Tecnologia, co-financiada pelo POSI, através do projecto POSI/PLP/43931/2001

1   2   3


©livred.info 2017
enviar mensagem

    Página principal