Prever as propriedades gramaticais das palavras nos ajuda a ler mais rápido



A outra abordagem para prever a probabilidade de palavras no contexto é o uso de modelos de linguagem que oferecem probabilidades de palavras que dependem de um grande corpus de textos


Ao ler, as pessoas não são apenas capazes de prever a próxima palavra, mas também as propriedades gramaticais das palavras. Isso nos permite ler mais rápido. As descobertas podem ajudar no desenvolvimento de novas redes neurais focadas no processamento de linguagem natural.

Psicolinguistas do Centro de Linguagem e Cérebro do HSE descobriram que, ao ler, as pessoas não são apenas capazes de prever palavras específicas, mas também as propriedades gramaticais das palavras, o que as ajuda a ler mais rapidamente. Pesquisadores também descobriram que a previsibilidade de palavras e características gramaticais pode ser modelada com sucesso com o uso de redes neurais.

O estudo foi publicado na revista PLOS ONE.

A capacidade de prever a próxima palavra na fala de outra pessoa ou na leitura foi descrita por muitos estudos psico-e neurolinguísticos nos últimos 40 anos. Presume-se que essa habilidade nos permite processar as informações mais rapidamente. Algumas publicações recentes sobre a língua inglesa demonstraram evidências de que, durante a leitura, as pessoas podem não apenas prever palavras específicas, mas também suas propriedades (por exemplo, a parte da fala ou o grupo semântico). Essa previsão parcial também nos ajuda a ler mais rápido.

Para acessar a previsibilidade de uma determinada palavra em um contexto, os pesquisadores geralmente usam tarefas cloze, como a causa do acidente foi um celular, que distraiu o ________ Nesta frase, diferentes substantivos são possíveis, mas o motorista é o mais provável, que também é o final real da frase. A probabilidade da palavra driver no contexto é calculada como o número de pessoas que acertaram esta palavra sobre o número total de pessoas que completaram a tarefa

A outra abordagem para prever a probabilidade de palavras no contexto é o uso de modelos linguísticos que oferecem probabilidades de palavras que dependem de um grande corpus de textos. No entanto, praticamente não há estudos que comparam as probabilidades recebidas da tarefa cloze com as do modelo linguístico.

Além disso, ninguém tentou modelar a previsibilidade gramatical subestudada das palavras. Os autores do artigo decidiram saber se os falantes nativos russos prediam propriedades gramaticais das palavras e se as probabilidades do modelo de linguagem poderiam se tornar uma substituição confiável às probabilidades de tarefas cloze.

Os pesquisadores analisaram respostas de 605 falantes nativos russos na tarefa cloze em 144 frases e descobriram que as pessoas podem prever precisamente a palavra específica em cerca de 18% dos casos. A precisão da previsão de partes da fala e características morfológicas das palavras (sexo, número e caso de substantivos; tenso, número, pessoa e gênero de verbos) variou de 63% a 78%.

Eles descobriram que o modelo de rede neural, que foi treinado no Corpus Nacional Russo, prevê palavras específicas e propriedades gramaticais com precisão que é comparável às respostas das pessoas no experimento. Uma observação importante foi que a rede neural prevê palavras de baixa probabilidade melhor do que os humanos e prevê palavras de alta probabilidade pior do que os humanos.

O segundo passo do estudo foi determinar como as probabilidades experimentais e baseadas em corpus impactam a velocidade de leitura. Para investigar isso, os pesquisadores analisaram dados sobre o movimento dos olhos em 96 pessoas que estavam lendo as mesmas 144 frases. Os resultados mostraram que, primeiro, maior a probabilidade de adivinhar a parte da fala, gênero e número de substantivos, bem como o tempo dos verbos, mais rápido a pessoa lê palavras com essas características.

Os pesquisadores dizem que isso prova que, para línguas com morfologia rica, como o russo, a previsão está em grande parte relacionada à adivinhação das propriedades gramaticais das palavras.

Em segundo lugar, as probabilidades de características gramaticais obtidas do modelo de rede neural explicaram a velocidade de leitura tão corretamente quanto as probabilidades experimentais. "Isso significa que, para estudos posteriores, poderemos usar probabilidades baseadas em corpus a partir do modelo de linguagem sem realizar novos experimentos baseados em tarefas cloze", comentou Anastasiya Lopukhina, autora do artigo e Pesquisadora do Centro de Linguagem e Cérebro do HSE.

Em terceiro lugar, as probabilidades de palavras específicas recebidas do modelo de idioma explicaram a velocidade de leitura de uma forma diferente em comparação com as probabilidades baseadas em experimentos. Os autores assumem que tal resultado pode estar relacionado a diferentes fontes para probabilidades experimentais baseadas em corpus: métodos baseados em corpus são melhores para palavras de baixa probabilidade, e os experimentais são melhores para as de alta probabilidade.

"Duas coisas têm sido importantes para nós neste trabalho. Primeiro, descobrimos que ler falantes nativos de línguas com morfologia rica envolve ativamente a previsão gramatical", disse Anastasiya Lopukhina. "Em segundo lugar, nossos colegas, linguistas e psicólogos que estudam a previsão tiveram a oportunidade de avaliar a probabilidade da palavra com o uso do modelo de linguagem: http://lm.ll-cl.org/. Isso permitirá que eles simplifiquem consideravelmente o processo de pesquisa".

“Morphosyntactic but not lexical corpus-based probabilities can substitute for cloze probabilities in reading experiments” by Anastasiya Lopukhina et al. PLOS ONE

13 visualizações0 comentário