常见NLP数据集、LDC语料
LDC(Linguistic Data Consortium,语言数据联盟)语料库包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文、来自交换机与费舍库(Fisher Collection)数以百万计的英语电话语音以及美国英语口语词汇。LDC语料,包括ACE2005、TACRED、WSJ0、Ontonotes5.0、NYT(New York Times)、Gigaword、Rich ERE、Conll2003、CTB9.0、TDT5、HKUST、TIMIT、TAC KBP等。





但是中国大陆想注册LDC语料库却较为麻烦,如果您有科研需要可以分享,主页视频多多帮忙一键三连。

