English


Sobre os Corpora do CorTec


O CorTec é constituído de 5 corpora comparáveis, ou seja, com textos semelhantes, em inglês e português originais, nas seguintes áreas:

1. Culinária - Receitas Culinárias
2. Ecoturismo - Meio ambiente
3. Hipertensão - Cardiologia
4. Informática - Geral
5. Instrumentos Contratuais - Direito Contratual
6. Astronomia - Geral
7. Insuficiência Renal - Geral
8. Linguística - Geral
9. Medidores Eletromagnéticos de Vazão - Geral
10. Suplementos Nutricionais - Geral
11. Computação - Hardware
12. Café - Colheita e Processamento
13. Turismo Cultural - Geral
14. Culinária 2 - Geral
15. Prostodontia -
16. Fotografia -
17. Autoclaves -
18. Moda -
19. Turismo - Hotelaria - Turismo - Hotelaria
20. Futebol - resultados e minuto a minuto
21. Culinária Brasileira - O corpus de culinária brasileira é comparável, composto por 1.225 receitas em português e 1.450 receitas em inglês, extraídas de livros escritos originalmente nesses idiomas. O corpus contém também os textos introdutórios a esses livros e receitas, totalizando aproximadamente 430.000 em cada língua.

Cada corpus técnico é composto por aproximadamente 200.000 palavras em cada língua.


Estão disponíveis três ferramentas que podem ser aplicadas a um ou mais corpora ao mesmo tempo. São elas:

  • Concordanceador
  • Gerador de Lista de Palavras
  • Gerador de N-Gramas


  • Os Corpora Técnicos


    1 - Corpus de Culinária - Receitas (versão 1)

    O Corpus de Culinária é um corpus comparável composto de 1.555 receitas originalmente escritas em português brasileiro e 2.076 em inglês britânico, coletadas da Internet de 2000 a 2004. Todas as categorias de receitas culinárias estão representadas neste corpus, sejam doces ou salgadas.

    Culinária Inglês Português
    Ocorrˆncias/tokens 368.227 252.149
    Formas/types 7.281 7.150
    T/T ratio 1,98 2,84

    Este corpus foi compilado por Elisa Duarte Teixeira.

    2 - Corpus de Meio Ambiente - Ecoturismo

    O corpus de Meio Ambiente é composto por textos originais de conteúdo comparável em inglês e português sobre Ecoturismo, retirados de sites do governo, de entidades ambientalistas e de agências de turismo.

    Ecoturismo Inglês Português
    Ocorrências/tokens 201,826 200,887
    Formas/types 10,009 17,938
    T/T ratio 4.96 8.93

    Este corpus foi compilado por Josimeire Martins.


    3 - Corpus de Cardiologia - Hipertensão

    O Corpus é constituído de 126 textos em inglês e 125 em português sobre hipertensão. Há mais de 300.000 palavras em cada língua. Todos os textos são da tipologia "artigo" e foram coletados de periódicos e revistas brasileiros e americanos. Não há nenhum texto traduzido, pois todos foram criteriosamente selecionados por originalidade. A subárea hipertensão pertence ao domínio da Medicina. Entretanto, pode pertencer tanto a áreas como Cardiologia, Saúde Pública, etc.

    Hipertensão Inglês Português
    Ocorrências/tokens 453,475 356,718
    Formas/types 17,808 22,000
    T/T ratio 3.93 6.17

    Este corpus foi compilado por Rosa Maria Caporrino Castanho e revisado por Luciana Latarini Ginezi.


    4 - Corpus de Informática - Geral

    O Corpus de Informática foi compilado exclusivamente com textos de publicações na Internet, tanto em inglês quanto em português. Para sua confecção e melhor equilíbrio, foi primeiramente elaborada uma árvore de domínio da área. Embora nem todas as subáreas tenham sido contempladas - o que exigiria um corpus muito maior -, acreditamos que ele seja representativo, num corte sincrônico, da área geral de Tecnologia de Informação (TI).

    Informática Inglês Português
    Ocorrências/tokens 193,877 196,604
    Formas/types 12,914 15,169
    T/T ratio 6.66 7.72

    Este corpus foi compilado por Guilherme Fromm.


    5 - Corpus de Direito Contratual - Instrumentos Contratuais

    O Corpus de Direito Contratual é composto de 134 e 48 Instrumentos Contratuais escritos originalmente em português e em inglês, respectivamente. Para a seleção dos documentos, foi usado o conceito do que é contrato no direito brasileiro, assim, dentre os contratos que compõem o corpus estão:

  • Contratos de Compra e Venda
  • Contratos de Compra e Venda
  • Contratos de Prestação de Serviços
  • Contrato de Distribuição
  • Contratos de Locação
  • Contratos de Licença
  • Contratos de Fornecimento
  • Contratos Sociais
  • Contratos Bancários
  • Contratos de Empréstimo
  • Contratos de Franquia
  • Procurações
  • Pacto Antenupcial
  • Termos de Sigilo
  •  

    Instrumentos Contratuais Inglês Português
    Ocorrências/tokens 204,249 200,588
    Formas/types 6,041 9,684
    T/T ratio 2.96 4.83

    Este corpus foi compilado por Luciana Carvalho Fonseca Corrêa Pinto.


    6 - Corpus de Astronomia - Geral

    astronomia Inglês Português

    Este corpus foi compilado por .


    7 - Corpus de Insuficiência Renal - Geral

    O corpus compõe-se de 94 textos (45 em inglês e 49 em português), num total de 184.000 palavras ativas (80.000 das quais provêm dos textos em inglês). Os textos incluem artigos, capítulos de livros, resumos e abstracts. A seleção dos textos mereceu especial cuidado. Foram obtidos em revistas indexadas e reconhecidas internacionalmente, em edições recentes de textos consagrados de medicina interna, e em publicações destinadas à atualização clínica em Nefrologia. Um nefrologista orientou e supervisionou essa seleção.

    Inglês: 200.125 palavras
    Português: 188.691 palavras

    Nota: Esse corpus possui abstracts em inglês, porém podem ter sido escritos por não nativos.

    insuficiencia Inglês Português

    Este corpus foi compilado por Inácio Abdulkader, Dora Massari Reis, Teresa Cristina S. Hilst, Maria Lúcia S. Moraes.


    8 - Corpus de Lingüística - Geral

    O corpus é composto por textos acadêmicos, todos coletados da Internet. Procurou-se abranger todas as subáreas da Lingüística num primeiro nível.

    Inglés: 1.921.811 palavras
    Portugués: 1.309.967 palavras

    lingüística Inglês Português

    Este corpus foi compilado por Guilherme Fromm.


    9 - Medidores Eletromagnéticos de Vazão - Geral

    medidores Inglês Português

    Este corpus foi compilado por .


    10 - Suplementos Nutricionais

    Este corpus ´ constituído de 133 textos em inglês e 110 em português sobre suplementos nutricionais que é uma subárea do domínio Nutrição. Os textos são constituódos da tipologia “artigo científico” e “informativo” e foram coletados pela internet através de sites americanos e brasileiros.

    Inglês: 155.348 palavras
    Português: 126.652 palavras

    Nota: Esse corpus contém muitos textos relacionados a dietas de esportistas e dietas de emagrecimento.

    suplementos Inglês Português

    Este corpus foi compilado por .


    11 - Computacao - Hardware

    O corpus é composto por textos acadêmicos e de divulga&ccediul;ão, todos coletados da Internet. Embora a maior parte seja na subárea de hardware, outras subáreas estão inclusas (contribuindo com uma quantidade menor de textos).

    Inglês: 1.029.187 palavras
    Português: 1.055.375

    Nota: O corpus anterior (Informática) contém textos de todas as áreas desta especialidade.

    computacao Inglês Português

    Este corpus foi compilado por Guilherme Fromm.


    12 - Café - Colheita e Processamento

    Este corpus é composto de textos técnicos, voltados para profissionais da cafeicultura, coletados da internet.

    Inglês: 102.379 palavras
    Português: 100.274 palavras

    cafe Inglês Português

    Este corpus foi compilado por Luciana Ginezi.


    13 - Turismo Cultural - Geral

    É constituído de 945 textos, num total de 636.135 palavras, subdivididas em dois subcorpora: um de portugu&ês, que conta com 427 textos (316.552 palavras) relativos às cidades do Rio de Janeiro, Salvador e São Paulo, e um de inglês britânico, com 518 textos (319.583 palavras) sobre as cidades de Edinburgh, Liverpool e Londres.

    Os textos contemplam as seguintes categorias:
    - acomodação
    - feiras e exposições
    - festivais
    - informações gerais
    - museus
    - música
    - teatro e musicais
    - tours

    Os tipos de textos são bastante diversificados para garantir maior variedade do vocabulário: empresariais, de revistas, jornais, sites do governo, agências de turismo, operadores turísticos, bem como de sistemas de reserva online e de sites turísticos informativos.

    Inglês: 319.583 palavras
    Português: 316.552 palavras

    turismo Inglês Português

    Este corpus foi compilado por Jeanette Lammel.


    14 - Culinária 2 - Geral

    O corpus comparável de culinária tem cerca de 1,5 milhão de palavras em cada língua e foi coletado de 2004 a 2006. Os corpora contém apenas receitas, mas em todas as categorias culinárias. São textos retirados da Internet e de cds de receitas. O corpus de inglês é majoritariamente britânico e a maioria das receitas provém de dois grandes sites (o que pode favorecer a repetição de certos padrões relacionados às particularidades desses sites) - isso é devido à dificuldade de se fazer a coleta em massa de receitas em inglês americano por causa das configurações de segurança desses sites.

    Inglês: 1.696.454 palavras
    Português: 1.573.591 palavras

    culinaria2 Inglês Português

    Este corpus foi compilado por Elisa Duarte Teixeira.


    15 - prostodontia

    DESCRIÇÃO

    prostodontia Inglês Português

    Este corpus foi compilado por prostodontia.


    16 - fotografia_pt

    DESCRIÇÃO

    fotografia_pt Inglês Português

    Este corpus foi compilado por fotografia_pt.


    17 - autoclaves_ptg

    DESCRIÇÃO

    autoclaves_ptg Inglês Português

    Este corpus foi compilado por autoclaves_ptg.


    18 - moda_ptg

    DESCRIÇÃO

    moda_ptg Inglês Português

    Este corpus foi compilado por moda_ptg.


    19 - hotelaria

    DESCRIÇÃO

    hotelaria Inglês Português

    Este corpus foi compilado por hotelaria.


    20 - Futebol - Geral

    O corpus é composto de 294 textos jornalísticos sobre futebol escritos originalmente em inglês e 444 em português, coletados de sites de associações esportivas e de jornais. Com o objetivo de compilar um corpus representativo da linguagem utilizada para falar de futebol optamos por selecionar quatro tipos de textos:
    - regras do jogo
    - textos jornalísticos sobre resultados de partidas
    - textos jornalísticos sobre campeonatos nacionais e internacionais
    - textos coletados sobre a copa do mundo de 2006

    Inglês: 163.914 palavras
    Português: 132.387 palavras

    futebol Inglês Portuguecirc;s

    Este corpus foi compilado por Sabrina Matuda.


    21 - Corpus de Culinária Brasileira

    O corpus de Culinária Brasileira é composto por 1.225 receitas em português e 1.450 receitas em inglês, extraídas de livros escritos originalmente nesses idiomas. O corpus contém também os textos introdutórios a esses livros e receitas, totalizando aproximadamente 430.000 em cada língua.

    Culinária Brasileira Inglês Português
    Ocorrências/tokens 433,495 432,690
    Formas/types 17,191 27,072
    T/T ratio 3,97 6,26

    Este corpus foi compilado por Rozane Rodrigues Rebechi.

    Escolha um Corpora na Lista de Seleção acima Para criar um novo basta adicionar uma linha, conforme descrito no primeiro campo da página.

     

    Para respeitar a lei de direitos autorais, os documentos que fazem parte do CorTec não podem ser consultados na íntegra. É disponibilizado apenas um contexto com 150 caracteres de cada lado da palavra de busca. Em caso de dúvida, entre em contato com projetocomet@edu.usp.br.


    CorTec - Corpus Técnico-Científico


    Administração