6. 语料库¶
https://github.com/liwenzhu/corpusZh
- 6.1. 常问问题
- 6.2. 使用 BERT 进行微调
- 6.3. 预先训练的模型
- 6.4. 使用 BERT 进行预训练
- 6.5. 在 Colab 中使用 BERT
- 6.6. 使用 BERT 提取固定的特征向量 (像 ELMo)
- 6.7. 什么是 BERT?
- 6.8. BERT 大规模预训练语言模型
- 6.9. 模型
- 6.10. 农业知识图谱(AgriKG)
- 6.11. Chinese NLP Corpus
- 6.12. cnSchema
- 6.13. 知识图谱
- 6.14. openkg
- 6.15. 现代汉语语料库加工规范
- 6.16. 标注规范
- 6.17. 信息处理用现代汉语词类标记规范
- 6.18. 计算所汉语词性标记集
- 6.18.1. 目录
- 6.18.2. 0. 说明
- 6.18.3. 1. 名词 (1 个一类,7 个二类,5 个三类)
- 6.18.4. 2. 时间词(1 个一类,1 个二类)
- 6.18.5. 3. 处所词(1 个一类)
- 6.18.6. 4. 方位词(1 个一类)
- 6.18.7. 5. 动词(1 个一类,9 个二类)
- 6.18.8. 6. 形容词(1 个一类,4 个二类)
- 6.18.9. 7. 区别词(1 个一类,2 个二类)
- 6.18.10. 8. 状态词(1 个一类)
- 6.18.11. 9. 代词(1 个一类,4 个二类,6 个三类)
- 6.18.12. 10. 数词(1 个一类,1 个二类)
- 6.18.13. 11. 量词(1 个一类,2 个二类)
- 6.18.14. 12. 副词(1 个一类)
- 6.18.15. 13. 介词(1 个一类,2 个二类)
- 6.18.16. 14. 连词(1 个一类,1 个二类)
- 6.18.17. 15. 助词(1 个一类,15 个二类)
- 6.18.18. 16. 叹词(1 个一类)
- 6.18.19. 17. 语气词(1 个一类)
- 6.18.20. 18. 拟声词(1 个一类)
- 6.18.21. 19. 前缀(1 个一类)
- 6.18.22. 20. 后缀(1 个一类)
- 6.18.23. 21. 字符串(1 个一类,2 个二类)
- 6.18.24. 22. 标点符号(1 个一类,16 个二类)
- 6.19. 全球 WordNet 协会
- 6.20. 知网
- 6.21. Schema
- 6.22. 爱汉语语料库
- 6.23. Chinese Open Wordnet
- 6.24. CSDN 下载
- 6.25. 店查查数据
- 6.26. funNLP
- 6.26.1. 1. 中英文敏感词过滤
- 6.26.2. 2. 97 种语言检测
- 6.26.3. 3. 另一个语言检测
- 6.26.4. 4. 中国手机归属地查询
- 6.26.5. 5. 国际手机电话归属地查询
- 6.26.6. 6. 根据名字判断性别
- 6.26.7. 7. 抽取 email 的正则表达式
- 6.26.8. 8. 抽取电话的正则表达式
- 6.26.9. 9. 抽取身份证号的正则表达式
- 6.26.10. 10. 人名语料库
- 6.26.11. 11. 中文缩写库
- 6.26.12. 12. 汉语拆字词典
- 6.26.13. 13. 词汇情感值
- 6.26.14. 14. 中文停用词敏感词
- 6.26.15. 15. 汉字转拼音
- 6.26.16. 16. 中文繁简体互转
- 6.26.17. 17. 英文模拟中文发音引擎
- 6.26.18. 18. 汪峰歌词生成器:
- 6.26.19. 19. 同义词库、反义词库、否定词库
- 6.26.20. 20. 无空格英文串分割、抽取单词
- 6.26.21. 21. IP 地址正则表达式
- 6.26.22. 22. 腾讯 QQ 号正则表达式
- 6.26.23. 23. 国内固话号码正则表达式
- 6.26.24. 24. 用户名正则表达式
- 6.26.25. 25. 汽车品牌、汽车零件相关词汇
- 6.26.26. 26. 时间抽取
- 6.26.27. 27. 中文词向量
- 6.26.28. 28. 公司名字大全
- 6.26.29. 29. 古诗词库:
- 6.26.30. 30. THU 整理的词库:
- 6.26.31. 31. 中文聊天语料
- 6.26.32. 32. 中文谣言数据
- 6.26.33. 33. 情感波动分析
- 6.26.34. 34. 百度中文问答数据集**:链接 提取码: 2dva
- 6.26.35. 35. 句子、QA 相似度匹配:MatchZoo
- 6.26.36. 36. bert 资源
- 6.26.37. 37. Texar
- 6.26.38. 38. 中文事件抽取
- 6.26.39. 39. cocoNLP
- 6.26.40. 40. 国内电话号码正则匹配(三大运营商+虚拟等)
- 6.26.41. 41. 清华大学 XLORE:中英文跨语言百科知识图谱
- 6.26.42. 42. 清华大学人工智能技术系列报告:
- 6.26.43. 43. 自然语言生成方面
- 6.26.44. 44. jieba
- 6.26.45. 45. NLP 太难了系列
- 6.26.46. 46. 自动对联数据及机器人
- 6.26.47. 47. 用户名黑名单列表:
- 6.26.48. 48. 罪名法务名词及分类模型
- 6.26.49. 49. 微信公众号语料
- 6.26.50. 50. cs224n 深度学习自然语言处理课程:
- 6.26.51. 51. 中文手写汉字识别
- 6.26.52. 52. 中文自然语言处理 语料/数据集
- 6.26.53. 53. 变量命名神器
- 6.26.54. 54. 分词语料库+代码
- 6.26.55. 55. NLP 新书推荐
- 6.26.56. 56. 任务型对话英文数据集
- 6.26.57. 57. ASR 语音数据集 + 基于深度学习的中文语音识别系统:
- 6.26.58. 58. 笑声检测器:
- 6.26.59. 59. Microsoft 多语言数字/单位/如日期时间识别包:
- 6.26.60. 60. chinese-xinhua
- 6.26.61. 61. 文档图谱自动生成
- 6.26.62. 62. SpaCy 中文模型
- 6.26.63. 63. Common Voice
- 6.26.64. 64. 神经网络关系抽取 pytorch
- 6.26.65. 65. 基于 bert 的命名实体识别 pytorch
- 6.26.66. 66. 关键词(Keyphrase)抽取包 pke
- 6.26.67. 67. 基于医疗领域知识图谱的问答系统
- 6.26.68. 68. 基于依存句法与语义角色标注的事件三元组抽取
- 6.27. nlp-datasets
- 6.28. 北京大学开发数据研究平台
- 6.29. 维基百科语料库
- 6.30. WordNet