6. 语料库¶
https://github.com/liwenzhu/corpusZh
- 6.1. 常问问题
 - 6.2. 使用 BERT 进行微调
 - 6.3. 预先训练的模型
 - 6.4. 使用 BERT 进行预训练
 - 6.5. 在 Colab 中使用 BERT
 - 6.6. 使用 BERT 提取固定的特征向量 (像 ELMo)
 - 6.7. 什么是 BERT?
 - 6.8. BERT 大规模预训练语言模型
 - 6.9. 模型
 - 6.10. 农业知识图谱(AgriKG)
 - 6.11. Chinese NLP Corpus
 - 6.12. cnSchema
 - 6.13. 知识图谱
 - 6.14. openkg
 - 6.15. 现代汉语语料库加工规范
 - 6.16. 标注规范
 - 6.17. 信息处理用现代汉语词类标记规范
 - 6.18. 计算所汉语词性标记集
- 6.18.1. 目录
 - 6.18.2. 0. 说明
 - 6.18.3. 1. 名词 (1 个一类,7 个二类,5 个三类)
 - 6.18.4. 2. 时间词(1 个一类,1 个二类)
 - 6.18.5. 3. 处所词(1 个一类)
 - 6.18.6. 4. 方位词(1 个一类)
 - 6.18.7. 5. 动词(1 个一类,9 个二类)
 - 6.18.8. 6. 形容词(1 个一类,4 个二类)
 - 6.18.9. 7. 区别词(1 个一类,2 个二类)
 - 6.18.10. 8. 状态词(1 个一类)
 - 6.18.11. 9. 代词(1 个一类,4 个二类,6 个三类)
 - 6.18.12. 10. 数词(1 个一类,1 个二类)
 - 6.18.13. 11. 量词(1 个一类,2 个二类)
 - 6.18.14. 12. 副词(1 个一类)
 - 6.18.15. 13. 介词(1 个一类,2 个二类)
 - 6.18.16. 14. 连词(1 个一类,1 个二类)
 - 6.18.17. 15. 助词(1 个一类,15 个二类)
 - 6.18.18. 16. 叹词(1 个一类)
 - 6.18.19. 17. 语气词(1 个一类)
 - 6.18.20. 18. 拟声词(1 个一类)
 - 6.18.21. 19. 前缀(1 个一类)
 - 6.18.22. 20. 后缀(1 个一类)
 - 6.18.23. 21. 字符串(1 个一类,2 个二类)
 - 6.18.24. 22. 标点符号(1 个一类,16 个二类)
 
 - 6.19. 全球 WordNet 协会
 - 6.20. 知网
 - 6.21. Schema
 - 6.22. 爱汉语语料库
 - 6.23. Chinese Open Wordnet
 - 6.24. CSDN 下载
 - 6.25. 店查查数据
 - 6.26. funNLP
- 6.26.1. 1. 中英文敏感词过滤
 - 6.26.2. 2. 97 种语言检测
 - 6.26.3. 3. 另一个语言检测
 - 6.26.4. 4. 中国手机归属地查询
 - 6.26.5. 5. 国际手机电话归属地查询
 - 6.26.6. 6. 根据名字判断性别
 - 6.26.7. 7. 抽取 email 的正则表达式
 - 6.26.8. 8. 抽取电话的正则表达式
 - 6.26.9. 9. 抽取身份证号的正则表达式
 - 6.26.10. 10. 人名语料库
 - 6.26.11. 11. 中文缩写库
 - 6.26.12. 12. 汉语拆字词典
 - 6.26.13. 13. 词汇情感值
 - 6.26.14. 14. 中文停用词敏感词
 - 6.26.15. 15. 汉字转拼音
 - 6.26.16. 16. 中文繁简体互转
 - 6.26.17. 17. 英文模拟中文发音引擎
 - 6.26.18. 18. 汪峰歌词生成器:
 - 6.26.19. 19. 同义词库、反义词库、否定词库
 - 6.26.20. 20. 无空格英文串分割、抽取单词
 - 6.26.21. 21. IP 地址正则表达式
 - 6.26.22. 22. 腾讯 QQ 号正则表达式
 - 6.26.23. 23. 国内固话号码正则表达式
 - 6.26.24. 24. 用户名正则表达式
 - 6.26.25. 25. 汽车品牌、汽车零件相关词汇
 - 6.26.26. 26. 时间抽取
 - 6.26.27. 27. 中文词向量
 - 6.26.28. 28. 公司名字大全
 - 6.26.29. 29. 古诗词库:
 - 6.26.30. 30. THU 整理的词库:
 - 6.26.31. 31. 中文聊天语料
 - 6.26.32. 32. 中文谣言数据
 - 6.26.33. 33. 情感波动分析
 - 6.26.34. 34. 百度中文问答数据集**:链接 提取码: 2dva
 - 6.26.35. 35. 句子、QA 相似度匹配:MatchZoo
 - 6.26.36. 36. bert 资源
 - 6.26.37. 37. Texar
 - 6.26.38. 38. 中文事件抽取
 - 6.26.39. 39. cocoNLP
 - 6.26.40. 40. 国内电话号码正则匹配(三大运营商+虚拟等)
 - 6.26.41. 41. 清华大学 XLORE:中英文跨语言百科知识图谱
 - 6.26.42. 42. 清华大学人工智能技术系列报告:
 - 6.26.43. 43. 自然语言生成方面
 - 6.26.44. 44. jieba
 - 6.26.45. 45. NLP 太难了系列
 - 6.26.46. 46. 自动对联数据及机器人
 - 6.26.47. 47. 用户名黑名单列表:
 - 6.26.48. 48. 罪名法务名词及分类模型
 - 6.26.49. 49. 微信公众号语料
 - 6.26.50. 50. cs224n 深度学习自然语言处理课程:
 - 6.26.51. 51. 中文手写汉字识别
 - 6.26.52. 52. 中文自然语言处理 语料/数据集
 - 6.26.53. 53. 变量命名神器
 - 6.26.54. 54. 分词语料库+代码
 - 6.26.55. 55. NLP 新书推荐
 - 6.26.56. 56. 任务型对话英文数据集
 - 6.26.57. 57. ASR 语音数据集 + 基于深度学习的中文语音识别系统:
 - 6.26.58. 58. 笑声检测器:
 - 6.26.59. 59. Microsoft 多语言数字/单位/如日期时间识别包:
 - 6.26.60. 60. chinese-xinhua
 - 6.26.61. 61. 文档图谱自动生成
 - 6.26.62. 62. SpaCy 中文模型
 - 6.26.63. 63. Common Voice
 - 6.26.64. 64. 神经网络关系抽取 pytorch
 - 6.26.65. 65. 基于 bert 的命名实体识别 pytorch
 - 6.26.66. 66. 关键词(Keyphrase)抽取包 pke
 - 6.26.67. 67. 基于医疗领域知识图谱的问答系统
 - 6.26.68. 68. 基于依存句法与语义角色标注的事件三元组抽取
 
 - 6.27. nlp-datasets
 - 6.28. 北京大学开发数据研究平台
 - 6.29. 维基百科语料库
 - 6.30. WordNet