UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

inconsistency in the annotation of expletive "se"

leoalenc opened this issue · comments

@arademaker e @wellington36 , fazendo levantamento das molduras de valência com expletivo para povoar a PorGram, conforme esta issue, , utilizando a ferramenta valences.py, deparei-me com inconsistências na anotação do reflexivo se como expletivo:

http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61bcba11648d8

Neste exemplo, é obj:

A taxa de cobertura das importações pelas exportações melhorou, situando-se em 50,9 por cento, contra 45,1 por cento nos cinco primeiros meses de 1994.

http://match.grew.fr/data/61bcba11648d8/4237.svg

Neste, porém, é expl:

Movimentaram-se cerca de 285 mil títulos, com a cotação de fecho a situar-se nos 4359 escudos.
http://match.grew.fr/data/61bcba11648d8/3400.svg

Trata-se de expl em ambos os casos. Esse erro impacta com certeza dezenas de exemplos, pois envolve potencialmente todos os verbos com expl que, como situar exemplificado acima, também possuem moldura com obj, por exemplo '<VERB:act,nsubj,expl>' e '<VERB:act,nsubj,obj>'.

Todas as ocorrências de -se deveriam ser expl sobre sua interpretação ou temos mais de uma análise possíveis para considerar nos contextos?

Talvez relacionado com #211

No total, temos 581 casos (http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61bccb4f107b6&clustering=e.label), sendo:

Number Relation
393 expl
96 nsubj
85 obj
5 iobj
2 expl:pass

E existe um caso http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61bccc8837af2 que não foi quebrado aluga-se.

@leoalenc e @arademaker leiam essa doc para o pt https://universaldependencies.org/pt/dep/expl.html.

@arademaker e @wellington36 , o que essa página de documentação afirma não procede, vai de encontro ao que já está estabelecido na literatura e é reforçado pela documentação geral das dependências universais. Erroneamente se parte do pressuposto de que expletivos somente ocorrem na posição de sujeito…

Todas as ocorrências de -se deveriam ser expl sobre sua interpretação ou temos mais de uma análise possíveis para considerar nos contextos?

@arademaker , somente devemos anotar expletivo quando o pronome reflexivo não corresponde a um argumento do verbo, daí, o nome expletivo. Expletivo é o nome tradicionalmente usado para constituintes que não têm uma interpretação semântica propriamente dita.

A Maria se queixou do trabalho.
A Maria se viu no espelho.

Temos um expletivo no primeiro exemplo, no segundo exemplo, não, em vez disso, o reflexivo é um objeto. Compare:

A Maria viu a si própria no espelho.
*A Maria queixou a si própria do trabalho.

Sugiro, para encontrar os casos a serem corrigidos, fazer um cruzamento entre os verbos que regem objeto direto e os verbos que estão anotados com expletivo, como no caso de situar. Isso não é difícil de fazer utilizando o programa em linguagem píton da pasta ferramentas. É claro que o resultado desse programa não será uma lista pronta, mas isso vai diminuir muito o espaço de busca. Chamo atenção para o fato de que o expletivo pode ter outras formas dependendo do sujeito do verbo:

Eu me queixei do atendimento.
Eu me lembrei da viagem.

Talvez relacionado com #211

Sim, está relacionado, embora a questão aqui seja mais específica: corrigir os casos erroneamente analisados como objeto em vez de expletivo para verbos que regem tanto objeto quanto expletivo. É um caso de inconsistência, não pode ficar desse jeito, independentemente do ponto de vista que se adote em relação à questão dos expletivos.
Pra mim, não parece haver muito mistério nessa questão, é expletivo toda vida que o reflexivo não for argumental. Esses casos já foram bastante estudados na literatura linguística do português.

@arademaker e @wellington36 , o que essa página de documentação afirma não procede, vai de encontro ao que já está estabelecido na literatura e é reforçado pela documentação geral das dependências universais. Erroneamente se parte do pressuposto de que expletivos somente ocorrem na posição de sujeito…

Correto, a documentação do português precisa ser atualizada, vou começar a tentar fazer isso.

@arademaker, observando as marcações de expl esse último caso ("se-") me parece um claro erro de escrita http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61c0c226096c7&clustering=N.form.

Numa busca mais generica, temos alguns casos estranhos: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=61c0c81f88897&clustering=N.form

o commit 534b0cf corrigi um caso onde situando-se tinha o se marcado como obj e não expl. Mas este issue certamente irá necessitar de uma revisão sistemática. Temos que agora tenhamos vários casos de pronomes expl que não são expletivos.

Sobre comentário do @wellington36 #394 (comment), corrigi os casos suspeitos:

  1. em inteligente- mente a anotação de goeswith indica o erro sintático.
  2. o caso de pré-64 poderia ser um token, mas mantive como dois e adicionei o MWT

Pra mim, não parece haver muito mistério nessa questão, é expletivo toda vida que o reflexivo não for argumental. Esses casos já foram bastante estudados na literatura linguística do português.

@leoalenc o problema é essencialmente identificar quando o reflexivo não é argumental. Abaixo, para o verbo queixar parece mais óbvio do que para o verbo situar.

  1. a taxa melhorou situando-se acima de 10.
  2. a taxa melhorou situando a si própria acima de 10.
    • A Maria queixou a si própria do trabalho.

Pode elaborar no que vc está sugerindo como cruzamento dos verbos? um exemplo talvez? Me parece que temos estes casos de expl para conferir se são mesmo expl. E outros casos de não expl que possam ser expl.

Sugiro, para encontrar os casos a serem corrigidos, fazer um cruzamento entre os verbos que regem objeto direto e os verbos que estão anotados com expletivo, como no caso de situar. Isso não é difícil de fazer utilizando o programa em linguagem piton da pasta ferramentas.

Eu não entendi esta parte do seu comentário:

Chamo atenção para o fato de que o expletivo pode ter outras formas dependendo do sujeito do verbo:

  1. Eu me queixei do atendimento.
  2. Eu me lembrei da viagem.

Pra mim, não parece haver muito mistério nessa questão, é expletivo toda vida que o reflexivo não for argumental. Esses casos já foram bastante estudados na literatura linguística do português.

@leoalenc o problema é essencialmente identificar quando o reflexivo não é argumental. Abaixo, para o verbo queixar parece mais óbvio do que para o verbo situar.

  1. a taxa melhorou situando-se acima de 10.

@arademaker, (2) é claramente agramatical ou semanticamente anômala, tal como (3). Uma taxa não pode situar a si própria, pois o uso transitivo do verbo situar exige animacidade:

  1. O rochedo situa-se a 10 km da cidade.
  2. ???O rochedo situa a si próprio a 10 km da cidade.
  1. a taxa melhorou situando a si própria acima de 10.
    • A Maria queixou a si própria do trabalho.

Pode elaborar no que vc está sugerindo como cruzamento dos verbos? um exemplo talvez?

O exemplo é o próprio verbo situar:

os historiadores situam o dilúvio num lugar remoto da Ásia (Borba 1991)

Trata-se de verbo transitivo-relativo para Fernandes (1987), ou seja, com dois complementos, um direto e outro introduzido por preposição. O verbo é trivalente nesse exemplo também para Borba (1991).
Já no seguinte exemplo, temos o chamado uso pronominal:

O Procon Canoas situa-se na Rua Gonçalves Dias [...] (Google)

Consulte:

Porto Editora – situar no Dicionário infopédia da Língua Portuguesa [em linha]. Porto: Porto Editora. [consult. 2022-01-04 16:31:42]. Disponível em https://www.infopedia.pt/dicionarios/lingua-portuguesa/situar)

Ou seja, devemos procurar erros na anotação de verbos para os quais pronomes clíticos podem ser tanto expletivos quanto não expletivos.
Sobre verbos pronominais: https://www.laits.utexas.edu/tex/gr/vpr1.html

Eu não entendi esta parte do seu comentário:

Chamo atenção para o fato de que o expletivo pode ter outras formas dependendo do sujeito do verbo:

  1. Eu me queixei do atendimento.
  2. Eu me lembrei da viagem.

A forma me é expletiva em (1) e (2), pois concorda com o sujeito eu.

@arademaker, na avaliação das diferentes amostras de entradas geradas automaticamente, conforme LR-POR/PorGram#66, LR-POR/PorGram#67 e LR-POR/PorGram#72, detectei dezenas de erros de anotação do Bosque no que tange aos reflexivos expletivos. São tanto erros de omissão, i.e., falsos negativos (por exemplo, obj em vez de expl) quanto de comissão, ou seja, falsos positivos (por exemplo, expl em vez de obj):

EXEMPLO DE FALSO NEGATIVO

; pronominal verb with the reading "limitar-se", "resumir-se" etc. (FER, MIC, BOR, AUR, HOU, PRI)
restringir_1 := trans-verb-lex & ; ERROR:refl-dat-obj-verb-lex
  [ STEM < "restringir" >,
    SYNSEM.LKEYS.KEYREL.PRED "_restringir_v_1_rel" ]
  """
  A impressão de que o índice de alta dos preços cai se restringe a 27% das respostas.
  """. 

EXEMPLO DE FALSO POSITIVO

; annotation error: reciprocal reflexive is an obj
conhecer_2 := refl-int-verb-lex & ; ERROR:trans-verb-lex
  [ STEM < "conhecer" >,
    SYNSEM.LKEYS.KEYREL.PRED "_conhecer_v_2_rel" ]
  """
  E se encontram à noite no bar Cabral, embora não se conheçam.
  """. 

Os comandos abaixo permitem extrair os falsos negativos e os falsos positivos, respectivamente:

~/hpsg/por$ awk '$2 ~ /:=/ && $3 !~ /^refl/ && $6 ~ /ERROR:refl/ {print $1,$3,$6}' random-sample-*-entries.tdl

awk '$2 ~ /:=/ && $3 ~ /^refl/ && $6 ~ /ERROR:/ && $6 !~ /:refl/ {print $3,$6}' random-sample-*-entries.tdl

Outro problema que detectei refere-se ao expl:pass, que, estranhamente, só possui 2 ocorrências no corpus, conforme #394 (comment). Acredito que casos de omissão e comissão na atribuição da tag expl:pass no corpus também podem ser identificados de forma análoga pela análise dos erros na geração de entradas.

~/hpsg/por$ grep -En "passive \"se\"" random*.tdl

random-sample-156-entries.tdl:1131:; passive "se"
random-sample-205-entries.tdl:38:; annotation error: passive "se"
random-sample-205-entries.tdl:53:; annotation error: passive "se"
random-sample-205-entries.tdl:151:; annotation error: passive "se"
random-sample-205-entries.tdl:771:; annotation error: passive "se"
random-sample-205-entries.tdl:1021:; annotation error: passive "se" or impersonal or nominative "se" (Mateus et al., 1989, p. 157)
random-sample-205-entries.tdl:1183:; annotation error: passive "se"
random-sample-206-entries.tdl:258:; passive "se" incorrectly annotaded as expletive
random-sample-206-entries.tdl:302:; passive "se" was not annotaded
random-sample-206-entries.tdl:979:; annotation error: passive "se"