Glossário

Bibliometria

É um campo da ciência da informação que aplica métodos estatísticos e matemáticos para analisar o curso da comunicação escrita de uma determinada disciplina. Segundo Pritchard (1) bibliometria significa “todos os estudos que tentam quantificar os processos de comunicação escrita”.

Fonte: Bibliometria. Disponível em: <http://pt.wikipedia.org/wiki/Bibliometria>. Acesso em: 12 mar.2012

Corpus/Corpora

Existem várias definições de corpus/corpora na literatura, algumas vezes divergentes. A mais antiga data de 1991, dada por Atkins, Clear & Ostler (http://www.natcorp.ox.ac.uk/archive/vault/tgaw02.pdf), no texto em que definem quatro tipos de coleções textuais: arquivo, biblioteca de textos eletrônicos, corpus e subcorpus. Segue a definição de corpus:

“corpus a subset of an ETL (electronic text library), built according to explicit design criteria for a specific purpose, eg the Corpus Révolutionnaire (Bibliothèque Beaubourg, Paris), the Cobuild Corpus, the Longman/Lancaster corpus, the Oxford Pilot corpus.”

Uma das mais atuais é de Tony Berber Sardinha, da PUC/SP, em seu livro BERBER SARDINHA, TONY . Lingüística de Corpus. São Paulo: Manole, 2004. v. 1. 410 p., na qual traz uma definição completa e itemiza os pontos importantes:

A origem: Os dados devem ser autênticos.
O propósito: o corpus deve ter a finalidade de ser um objeto de estudo lingüístico.
A composição: o conteúdo do corpus deve ser criteriosamente escolhido. Por exemplo, se é um corpus de português brasileiro que represente a língua portuguesa, tal qual é escrita no Brasil, em sua totalidade, a coleta deve ser guiada por um conjunto de critérios que garanta, entre outras coisas, que o maior número possível de tipos textuais existentes no português brasileiro esteja representado, que haja uma quantidade aceitável de cada tipo e que a seleção seja aleatória, a fim de não contaminar a coleção com variáveis indesejáveis
A formatação: os dados devem ser legíveis por computador
A representatividade: o corpus deve ser representativo de uma língua ou variedade (do quê? Para quem?)
A extensão: o córpus deve ser vasto para ser representativo

Uma última definição que merece destaque, vem de uma pesquisadora portuguesa que dedicou mais de 10 anos para a construção de um site (a Linguateca – http://www.linguateca.pt/) para servir de marco/palco para as pesquisas em Linguística de Corpus e Processamento de Línguas Naturais, principalmente do português – Diana Santos, 2006, na Primeira Escola de Verão da Linguateca, que prefere usar a palavra “corpo” em vez da palavra em latim corpus:

…um corpo eletrônico, …a conjunção de três coisas relacionadas: (i) um conjunto de textos, (ii) um conjunto de informação a marcar/classificar estes textos, e (iii) uma interface que permitisse consultar os dois primeiros.
…a escolha dos textos e da informação a eles associada tinha que ter um objetivo, senão estaríamos na presença apenas de uma coleção.

Um corpo é uma coleção classificada de objetos linguísticos para uso em Processamento de Linguagem Natural/Linguística Computacional/Linguística em que uso pode ser estudo, medição, teste, ou avaliação, enquanto objetos linguísticos são textos, frases, palavras, entrevistas, erros ortográficos, entradas de dicionário, citações, pareceres jurídicos, filmes, imagens com legendas, traduções, correções (de textos de alunos de língua ou de tradução), telefonemas, simulações, programas, etc.

Corpus/Corpora Anotados

A Anotação de corpus (‘tagging’) é o processo de adicionar novas informações em textos fontes, seja por humanos (anotadores) ou por sistemas treinados para a tarefa (anotação automática). As decisões importantes neste processo são: qual material será anotado e qual a teoria/conhecimento que o anotador possui, seja porque foi treinado para isto ou adquiriu previamente. Desta forma, o processo de anotação implica em decidir que fragmento do texto anotar e adicionar uma etiqueta, de um conjunto fixo, pré-definido (‘tagset’). As anotações de corpus podem ser de várias naturezas linguísticas, como a anotação das classes de palavras, a anotação sintática, semântica ou discursiva. Ou de outras naturezas que incluem o conteúdo dos textos dos corpus/corpora. Como os textos dos corpus/corpora podem conter várias anotações simultâneas, surgem os dois tipos de anotação: (i) ‘In-line’: todas as anotações estão no mesmo arquivo fonte; (ii) ‘Standoff’: cada tipo/nível de anotação em arquivos separados e o arquivo fonte não possui anotação.

As razões de se anotar corpus variam de acordo com a área de pesquisa. Para a área de pesquisa em Processamento de línguas naturais, dado que alguns fenômenos linguísticos/tarefas são muito complexos para serem definidos usando regras, a anotação tenta dar conta desta complexidade aplicando-se métodos que aprendem a partir de corpora anotados, isto é, usando aprendizado de máquina. Assim, a anotação serve com insumo para alimentar os métodos de aprendizado. Já para a Linguística, as razões variam, por exemplo, um corpus anotado permite a busca por fenômenos linguísticos, gerar estatísticas para o fenômeno, descobrir novos fenômenos e correlações e testar uma teoria linguística.

Fator de impacto

Abreviado como FI, é uma medida que reflete o número médio de citações de artigos científicos publicado em determinado periódico. É empregado frequentemente para avaliar a importância de um dado periódico em sua área, sendo que aqueles com um maior FI são considerados mais importantes do que aqueles com um menor FI. O FI foi criado por Eugene Garfield, o fundador do Institute for Scientific Information (ISI), hoje parte da Thomson Reuters Corporation. Desde 1972 os FI são calculados anualmente para os periódicos indexados ao ISI e depois publicados no Journal of Citation Reports – JCR (http://admin-apps.webofknowledge.com/JCR/JCR?RQ=HOME –), também da Thomson Reuters.

Fonte: FATOR de impacto. Disponível em: <http://pt.wikipedia.org/wiki/Fator_de_impacto>. Acesso em: 12 mar.2012

Ferramentas computacionais

Historicamente, ferramentas de suporte ao processo cíclico de escrita começaram com um viés individual/pessoal do processo (produzir idéias-produzir estruturas-editar texto), sendo mais sofisticadas e dedicadas que os processadores e formatadores de textos, embora os processadores como Word e outros já incluiram em seu conjunto de ferramentas um bom conjunto delas (corretores gramaticais, de estilo, geradores de outliners (estrutura) e fórmulas para avaliar a inteligibilidade de textos.
As ferramentas são, geralmente, classificadas de acordo com o estágio do processo da escrita para o qual são adequadas. A classificação segundo o estágio do processo de escrita resulta em três classes de ferramentas:

  • Ferramentas de pré-processamento do texto: fornecem ajuda para a fase de geração de ideias e compreendem os editores gráficos de redes de notas, os editores gráficos de estrutura em forma de árvore e os outliners textuais que permitem expandir ou esconder os diferentes níveis de organização de um texto.
  • Ambientes para a escrita: compreendem um conjunto de ferramentas destinadas a dar suporte a uma grande parte do processo de escrita (geralmente, da fase de geração e agrupamento de idéias até a composição de um texto contínuo), ou a todo o processo. Combinam, geralmente, um editor gráfico para as notas/idéias, um editor de estruturas e um editor de textos em um único ambiente.
  • Ferramentas para pós-processamento do texto: são destinadas a melhorar a qualidade do texto e compreendem ferramentas para checagem de estilo, corretores ortográficos e gramaticais, ferramentas estatísticas, corretores de erros mecânicos e avaliadores da inteligibilidade de textos para um dado público alvo.

Índice H

O H-index em inglês é uma proposta para quantificar a produtividade e o impacto de cientistas baseando-se nos seus artigos (papers) mais citados”. Em palavras, o índice H é o número de artigos com citações maiores ou iguais a esse número. Um par de exemplos certamente ajuda a ilustrar o conceito: um pesquisador com H = 5 tem 5 artigos que receberam 5 ou mais citações; um departamento com H = 45 tem 45 artigos com 45 ou mais citações; e assim por diante. Esses índices podem ser consultados na base Web of Science http://www.isiknowledge.com e na bases Scopus http://www.scopus.com.

Fonte: http://pt.wikipedia.org/wiki/%C3%8Dndice_h

Material bibliográfico

Material bibliográfico é todo tipo de material informativo, independente de seu suporte físico, que sirva de apoio às atividades de ensino, pesquisa e extensão desenvolvidas na Unidade, com visão da Universidade como um todo.

Fonte: ANDRADE, D.C. (Coord). Subsídios para o estabelecimento de política de desenvolvimento de acervos para as bibliotecas do SIBi/USP. São Paulo: SIBi/USP, 1998. 14 p. (Caderno de Estudos, 7.)

Qualis

É o conjunto de procedimentos utilizados pela Capes para estratificação da qualidade da produção intelectual dos programas de pós-graduação. Tal processo foi concebido para atender as necessidades específicas do sistema de avaliação e é baseado nas informações fornecidas por meio do aplicativo Coleta de Dados. Como resultado, disponibiliza uma lista com a classificação dos veículos utilizados pelos programas de pós-graduação para a divulgação da sua produção.

Fonte: COORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NIVEL SUPERIOR. Qualis periódicos. Brasilia: CAPES, 2012.Disponível em: <http://www.capes.gov.br/avaliacao/qualis>. Acesso em: 12 mar.2012.

Comments are closed.