NLP常用模型和数据集高速下载
2020-03-05
2 min read
楔子
由于大部分NLP的模型和数据集都在国外,导致国内下载速度实在感人😭。好在有很多NLP的框架内置了很多数据集,都是国内链接,亲测下载速度很快,本文汇总一下一些我见到的国内链接,文末感谢这些平台提供的存储和下载服务。
正文
模型
模型 | 文件名称 | 下载链接 |
---|---|---|
bert-base-cased |
下载 | |
bert-base-chinese |
下载 | |
bert-base-uncased |
下载 | |
bert-chinese-wwm-ext |
下载 | |
BERT | bert-chinese-wwm |
下载 |
bert-large-cased-wwm |
下载 | |
bert-large-cased |
下载 | |
bert-large-uncased-wwm |
下载 | |
bert-large-uncased |
下载 |
数据集
数据集 | 文件名称 | 下载链接 |
---|---|---|
中文情感分析 | ChnSentiCorp |
下载 |
语义相似度 | LCQMC |
下载 |
问答匹配 | NLPCC_DPQA |
下载 |
中文命名实体识别 | MSRA_NER |
下载 |
英文多标签分类数据集 | Toxic |
下载 |
抽取式英文阅读理解 | SQUAD |
下载 |
抽取式中文阅读理解 | CMRC2018 |
下载 |
抽取式繁体阅读理解 | DRCD |
下载 |
英文数据集集合 | GLUE |
下载 |
跨语言自然语言推理 | XNLI |
下载 |
今日头条中文新闻短文本分类 | TNews |
下载 |
互联网情感分析 | INews |
下载 |
智能客服中文问句匹配 | BQ |
下载 |
中文长文本分类 | IFLYTEK |
下载 |
中文长文本分类 | THUCNEWS |
下载 |
词向量
词向量 | 文件名称 | 下载链接 |
---|---|---|
glove.6B.50d |
下载 | |
glove.6B.100d |
下载 | |
GloVe | glove.6B.200d |
下载 |
glove.6B.300d |
下载 | |
glove.42B.300d |
下载 | |
glove.840B.300d |
下载 |
感谢
Tips
如果还有其他的国外文件需要下载,国内下载很慢,可以尝试使用kaggle的notebook先下载到kaggle,然后再下载到本地,亲测有效😄。