6.29. 维基百科语料库

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 “text corpus” 的涵意即为 “body of text”。

6.29.1. 目录

  1. 语料库列表

    1. 多语

    2. 英文

    3. 中文

  2. 外部链接

6.29.2. 语料库列表

6.29.2.1. 多语

  • 点通多语言语音语料库

  • 宾州大学语料库

  • Wikipedia XML 语料库

6.29.2.2. 英文

  • Collin’s Cobuild Project - 成果:Collin’s 当代英语辞典、及当代英语文法。

  • Corpus of Political Speeches, provided by Hong Kong Baptist University Library

6.29.2.3. 中文

  • 中央研究院平衡语料库

  • LIVAC 汉语共时语料库

  • 北京大学语料库

  • 兰开斯特大学汉语平衡语料库

  • 兰开斯特-洛杉矶汉语口语语料库

  • 语料库语言学在线

  • 香港浸会大学 - 政治人物演讲语料库

  • 北京森林工作室汉语句义结构标注语料库[永久失效链接]

6.29.2.4. 外部链接

  • Free, web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese

  • 开放式目录计划中和 Computational Linguistics 相关的内容

  • ACL SIGLEX Resource Links: Text Corpora

  • The Leipzig Glossing Rules: Conventions for interlinear morpheme-by-morpheme glosses

  • Developing Linguistic Corpora: a Guide to Good Practice[永久失效链接]

  • An interface for querying automatically-constructed virtual corpora[失效链接].

  • TEP: Tehran English-Persian Parallel Corpus.

  • [1] Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.

  • TS Corpus - A Turkish Corpus freely available for academic research.

  • Turkish National Corpus - A general-purpose corpus for contemporary Turkish

  • Free web-based English corpus to download (3 billion words)