[{"corpusName":"afr-za_web_2018_1M","description":"Afrikaans Web subcorpus (South Africa) based on material from 2018 (1,000,000 sentences)","description_deu":"Afrikaans Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":516795,"numberOfTokens":18179626,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"afr_wikipedia_2018_300K","description":"Afrikaans Wikipedia subcorpus based on material from 2018 (300,000 sentences)","description_deu":"Afrikaans Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":286313,"numberOfTokens":5706275,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"amh_wikipedia_2018_30K","description":"Amharic Wikipedia subcorpus based on material from 2018 (30,000 sentences)","description_deu":"Amharisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (30.000 Sätze)","numberOfSentences":30000,"numberOfTypes":98637,"numberOfTokens":405193,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"ara-tn_newscrawl-OSIAN_2018","description":"Arabic news corpus (Tunisia) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Tunesien) basierend auf Texten gecrawlt 2018","numberOfSentences":3314583,"numberOfTypes":1445301,"numberOfTokens":74127526,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-dz_newscrawl-OSIAN_2018","description":"Arabic news corpus (Algeria) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Algerien) basierend auf Texten gecrawlt 2018","numberOfSentences":3009490,"numberOfTypes":1342279,"numberOfTokens":73607235,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-international_newscrawl-OSIAN_2018","description":"ara-international_newscrawl-OSIAN_2018","description_deu":"ara-international_newscrawl-OSIAN_2018","numberOfSentences":1337556,"numberOfTypes":680918,"numberOfTokens":28829944,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-de_newscrawl-OSIAN_2018","description":"Arabic news corpus (Germany) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Deutschland) basierend auf Texten gecrawlt 2018","numberOfSentences":1145154,"numberOfTypes":565927,"numberOfTokens":24140236,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara_newscrawl_2013_1M","description":"Arabic news subcorpus based on material crawled in 2013 (1,000,000 sentences)","description_deu":"Arabisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":871269,"numberOfTokens":20759565,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"ara_wikipedia_2018_1M","description":"Arabic Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)","description_deu":"Arabisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":1006181,"numberOfTokens":19419287,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"ara-middleeast_newscrawl-OSIAN_2018","description":"ara-middleeast_newscrawl-OSIAN_2018","description_deu":"ara-middleeast_newscrawl-OSIAN_2018","numberOfSentences":873723,"numberOfTypes":596459,"numberOfTokens":20328100,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-ir_newscrawl-OSIAN_2018","description":"Arabic news corpus (Iran) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Iran) basierend auf Texten gecrawlt 2018","numberOfSentences":865789,"numberOfTypes":569873,"numberOfTokens":20599830,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-fr_newscrawl-OSIAN_2018","description":"Arabic news corpus (France) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Frankreich) basierend auf Texten gecrawlt 2018","numberOfSentences":752604,"numberOfTypes":403190,"numberOfTokens":16363272,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-ma_newscrawl-OSIAN_2018","description":"Arabic news corpus (Morocco) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Marokko) basierend auf Texten gecrawlt 2018","numberOfSentences":537227,"numberOfTypes":613187,"numberOfTokens":12340176,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-eg_newscrawl-OSIAN_2018","description":"Arabic news corpus (Egypt) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Ägypten) basierend auf Texten gecrawlt 2018","numberOfSentences":384866,"numberOfTypes":305440,"numberOfTokens":8959240,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-com_newscrawl-OSIAN_2018","description":"Arabic news corpus based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus basierend auf Texten gecrawlt 2018","numberOfSentences":359915,"numberOfTypes":344434,"numberOfTokens":7122716,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-tr_newscrawl-OSIAN_2018","description":"Arabic news corpus (Turkey) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Türkei) basierend auf Texten gecrawlt 2018","numberOfSentences":267302,"numberOfTypes":265176,"numberOfTokens":5804479,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-ru_newscrawl-OSIAN_2018","description":"Arabic news corpus (Russia) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Russland) basierend auf Texten gecrawlt 2018","numberOfSentences":233641,"numberOfTypes":222805,"numberOfTokens":5093442,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-se_newscrawl-OSIAN_2018","description":"Arabic news corpus (Sweden) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Schweden) basierend auf Texten gecrawlt 2018","numberOfSentences":229562,"numberOfTypes":260894,"numberOfTokens":5386761,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-ps_newscrawl-OSIAN_2018","description":"Arabic news corpus (Palestine) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Palästinensische Autonomiegebiete) basierend auf Texten gecrawlt 2018","numberOfSentences":145869,"numberOfTypes":257161,"numberOfTokens":3157609,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-iq_newscrawl-OSIAN_2018","description":"Arabic news corpus (Iraq) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Irak) basierend auf Texten gecrawlt 2018","numberOfSentences":139074,"numberOfTypes":183866,"numberOfTokens":2858360,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-jo_newscrawl-OSIAN_2018","description":"Arabic news corpus (Jordan) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Jordanien) basierend auf Texten gecrawlt 2018","numberOfSentences":133712,"numberOfTypes":279650,"numberOfTokens":2862698,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-ca_newscrawl-OSIAN_2018","description":"Arabic news corpus (Canada) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Kanada) basierend auf Texten gecrawlt 2018","numberOfSentences":119353,"numberOfTypes":179990,"numberOfTokens":2575617,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-sy_newscrawl-OSIAN_2018","description":"Arabic news corpus (Syria) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Syrien) basierend auf Texten gecrawlt 2018","numberOfSentences":112883,"numberOfTypes":159008,"numberOfTokens":2682146,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-uk_newscrawl-OSIAN_2018","description":"Arabic news corpus (United Kingdom) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Vereinigtes Königreich) basierend auf Texten gecrawlt 2018","numberOfSentences":112464,"numberOfTypes":170870,"numberOfTokens":2292744,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-qa_newscrawl-OSIAN_2018","description":"Arabic news corpus (Qatar) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Katar) basierend auf Texten gecrawlt 2018","numberOfSentences":36326,"numberOfTypes":118104,"numberOfTokens":760419,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-ae_newscrawl-OSIAN_2018","description":"Arabic news corpus (United Arab Emirates) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Vereinigte Arabische Emirate) basierend auf Texten gecrawlt 2018","numberOfSentences":35128,"numberOfTypes":114764,"numberOfTokens":795451,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-au_newscrawl-OSIAN_2018","description":"Arabic news corpus (Australia) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Australien) basierend auf Texten gecrawlt 2018","numberOfSentences":32735,"numberOfTypes":100922,"numberOfTokens":655229,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-sa_newscrawl-OSIAN_2018","description":"Arabic news corpus (Saudi Arabia) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Saudi-Arabien) basierend auf Texten gecrawlt 2018","numberOfSentences":15627,"numberOfTypes":73265,"numberOfTokens":331018,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"ara-cn_newscrawl-OSIAN_2018","description":"Arabic news corpus (People’s Republic of China) based on material crawled in 2018","description_deu":"Arabisches Nachrichten-Korpus (Volksrepublik China) basierend auf Texten gecrawlt 2018","numberOfSentences":7639,"numberOfTypes":30248,"numberOfTokens":166327,"thanksTo":"Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net","posTagger":"","annotations":""},{"corpusName":"arg_wikipedia_2018_30K","description":"Aragonese Wikipedia subcorpus based on material from 2018 (30,000 sentences)","description_deu":"Aragonesisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (30.000 Sätze)","numberOfSentences":30000,"numberOfTypes":73301,"numberOfTokens":577703,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"asm_wikipedia_2018_30K","description":"Assamese Wikipedia subcorpus based on material from 2018 (30,000 sentences)","description_deu":"Assamesisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (30.000 Sätze)","numberOfSentences":30000,"numberOfTypes":72404,"numberOfTokens":433390,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"ast_wikipedia_2018_300K","description":"Leonese Wikipedia subcorpus based on material from 2018 (300,000 sentences)","description_deu":"Asturisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":302250,"numberOfTokens":5998979,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"aze_wikipedia_2018_1M","description":"Azerbaijani Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)","description_deu":"Aserbeidschanisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":829203,"numberOfTokens":13251773,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bak_wikipedia_2018_100K","description":"Bashkir Wikipedia subcorpus based on material from 2018 (100,000 sentences)","description_deu":"Baschkirisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":158361,"numberOfTokens":1360727,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bar_wikipedia_2018_100K","description":"Bavarian Wikipedia subcorpus based on material from 2018 (100,000 sentences)","description_deu":"Bairisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":217072,"numberOfTokens":1563769,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bel_wikipedia_2018_300K","description":"Belarusian Wikipedia subcorpus based on material from 2018 (300,000 sentences)","description_deu":"Weißrussisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":394596,"numberOfTokens":4357019,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"ben_community_2017","description":"Bengali community corpus. Please be aware that community corpora are updated in irregular intervals.","description_deu":"Bengali community corpus. Please be aware that community corpora are updated in irregular intervals.","numberOfSentences":1200255,"numberOfTypes":645461,"numberOfTokens":16632554,"thanksTo":"","posTagger":"","annotations":"coocSim"},{"corpusName":"ben_newscrawl_2014_300K","description":"Bengali news subcorpus based on material crawled in 2014 (300,000 sentences)","description_deu":"Bengali Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2014 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":211253,"numberOfTokens":4043381,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"ben_wikipedia_2018_300K","description":"Bengali Wikipedia subcorpus based on material from 2018 (300,000 sentences)","description_deu":"Bengali Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":320340,"numberOfTokens":3939930,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bho_wikipedia_2018_10K","description":"Bhojpuri Wikipedia subcorpus based on material from 2018 (10,000 sentences)","description_deu":"Bhojpurī Wikipedia-Teilkorpus basierend auf Texten von 2018 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":20966,"numberOfTokens":164994,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bik_wikipedia_2018_10K","description":"Bikol Wikipedia subcorpus based on material from 2018 (10,000 sentences)","description_deu":"Bikol Wikipedia-Teilkorpus basierend auf Texten von 2018 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":29322,"numberOfTokens":173505,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bos_wikipedia_2018_300K","description":"Bosnian Wikipedia subcorpus based on material from 2018 (300,000 sentences)","description_deu":"Bosnisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":392159,"numberOfTokens":4792427,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bre_wikipedia_2018_100K","description":"Breton Wikipedia subcorpus based on material from 2018 (100,000 sentences)","description_deu":"Bretonisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":136185,"numberOfTokens":1691625,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bua_wikipedia_2018_10K","description":"Buriat Wikipedia subcorpus based on material from 2018 (10,000 sentences)","description_deu":"Burjatisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":36970,"numberOfTokens":140778,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"bul_news_2011_1M","description":"Bulgarian news subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Bulgarisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":375600,"numberOfTokens":17021864,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"bul_newscrawl_2011_1M","description":"Bulgarian news subcorpus based on material crawled in 2011 (1,000,000 sentences)","description_deu":"Bulgarisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":485464,"numberOfTokens":16860193,"thanksTo":"","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"bul_wikipedia_2018_1M","description":"Bulgarian Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)","description_deu":"Bulgarisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":690657,"numberOfTokens":16630038,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":""},{"corpusName":"ces_wikipedia_2014_1M","description":"Czech Wikipedia subcorpus based on material from 2014 (1,000,000 sentences)","description_deu":"Tschechisches Wikipedia-Teilkorpus basierend auf Texten von 2014 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":860295,"numberOfTokens":15869641,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"RFTagger","annotations":"coocSim, GDEX, POS (RFTagger - RFTagger), wordsLevenshteinSim"},{"corpusName":"ces_news_2012_1M","description":"Czech news subcorpus based on material from 2012 (1,000,000 sentences)","description_deu":"Tschechisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":516915,"numberOfTokens":14752849,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"ces_news_2013_1M","description":"Czech news subcorpus based on material from 2013 (1,000,000 sentences)","description_deu":"Tschechisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":505923,"numberOfTokens":14679090,"thanksTo":"","posTagger":"RFTagger","annotations":"coocSim, GDEX, POS (RFTagger - RFTagger), wordsLevenshteinSim"},{"corpusName":"dan_news_2012_1M","description":"Danish news subcorpus based on material from 2012 (1,000,000 sentences)","description_deu":"Dänisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":482976,"numberOfTokens":18323173,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"deu_news_2012_3M","description":"German news subcorpus based on material from 2012 (3,000,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2012 (3.000.000 Sätze)","numberOfSentences":3000000,"numberOfTypes":1505382,"numberOfTokens":50687712,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"deu_news_2010_1M","description":"German news subcorpus based on material from 2010 (1,000,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2010 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":844797,"numberOfTokens":17052446,"thanksTo":"","posTagger":"","annotations":"coocSim, wordsLevenshteinSim"},{"corpusName":"deu_wikipedia_2010_1M","description":"German Wikipedia subcorpus based on material from 2010 (1,000,000 sentences)","description_deu":"Deutsches Wikipedia-Teilkorpus basierend auf Texten von 2010 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":1008650,"numberOfTokens":17051803,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"deu_news_2012_1M","description":"German news subcorpus based on material from 2012 (1,000,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":780394,"numberOfTokens":16898449,"thanksTo":"","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"deu_news_2010_100K","description":"German news subcorpus based on material from 2010 (100,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2010 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":195385,"numberOfTokens":1705473,"thanksTo":"","posTagger":"","annotations":"coocSim, wordsLevenshteinSim"},{"corpusName":"deu_news_2008_100K","description":"German news subcorpus based on material from 2008 (100,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2008 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":193649,"numberOfTokens":1676598,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"deu_news_2010_10K","description":"German news subcorpus based on material from 2010 (10,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2010 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":40982,"numberOfTokens":171989,"thanksTo":"","posTagger":"","annotations":"coocSim, wordsLevenshteinSim"},{"corpusName":"deu_news_2008_10K","description":"German news subcorpus based on material from 2008 (10,000 sentences)","description_deu":"Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2008 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":40013,"numberOfTokens":167046,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"ell_newscrawl_2013_1M","description":"Modern Greek news subcorpus based on material crawled in 2013 (1,000,000 sentences)","description_deu":"Neugriechisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":602467,"numberOfTokens":19214003,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"eng_news_2012_3M","description":"English news subcorpus based on material from 2012 (3,000,000 sentences)","description_deu":"Englisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (3.000.000 Sätze)","numberOfSentences":3000000,"numberOfTypes":710132,"numberOfTokens":62393073,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"eng_news_2013_3M","description":"English news subcorpus based on material from 2013 (3,000,000 sentences)","description_deu":"Englisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (3.000.000 Sätze)","numberOfSentences":3000000,"numberOfTypes":824726,"numberOfTokens":61979637,"thanksTo":"","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"eng_news_2013_1M","description":"English news subcorpus based on material from 2013 (1,000,000 sentences)","description_deu":"Englisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":456198,"numberOfTokens":20661218,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"eng_wikipedia_2012_1M","description":"English Wikipedia subcorpus based on material from 2012 (1,000,000 sentences)","description_deu":"Englisches Wikipedia-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":734215,"numberOfTokens":19473552,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"est_news_2014_300K","description":"Estonian news subcorpus based on material from 2014 (300,000 sentences)","description_deu":"Estnisches Nachrichten-Teilkorpus basierend auf Texten von 2014 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":414968,"numberOfTokens":4512185,"thanksTo":"","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"est_news_2011_300K","description":"Estonian news subcorpus based on material from 2011 (300,000 sentences)","description_deu":"Estnisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":420227,"numberOfTokens":4339759,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"fin_news_2012_300K","description":"Finnish news subcorpus based on material from 2012 (300,000 sentences)","description_deu":"Finnisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":433388,"numberOfTokens":3326107,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"fra_news_2011_3M","description":"French news subcorpus based on material from 2011 (3,000,000 sentences)","description_deu":"Französisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (3.000.000 Sätze)","numberOfSentences":3000000,"numberOfTypes":678547,"numberOfTokens":63125248,"thanksTo":"Language expert (Preprocessing),Alain Kamber,;Language expert (Preprocessing),Daniel Elmiger,","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"fra_news_2011_1M","description":"French news subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Französisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":381123,"numberOfTokens":21039595,"thanksTo":"Language expert (Preprocessing),Alain Kamber,;Language expert (Preprocessing),Daniel Elmiger,","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"guj_newscrawl_2014_1M","description":"Gujarati news subcorpus based on material crawled in 2014 (1,000,000 sentences)","description_deu":"Gujarātī Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2014 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":583642,"numberOfTokens":13988086,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"hin_news_2011_1M","description":"Hindi news subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Hindi Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":230831,"numberOfTokens":19177172,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"hun_newscrawl_2013_1M","description":"Hungarian news subcorpus based on material crawled in 2013 (1,000,000 sentences)","description_deu":"Ungarisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":1009949,"numberOfTokens":15723178,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"ita_wikipedia_2011_1M","description":"Italian Wikipedia subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Italienisches Wikipedia-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":661244,"numberOfTokens":21306851,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"ita_news_2012_1M","description":"Italian news subcorpus based on material from 2012 (1,000,000 sentences)","description_deu":"Italienisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":436007,"numberOfTokens":19895912,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"kck_community_2019","description":"Kalanga community corpus based on material from 2019","description_deu":"Community-Korpus basierend auf Texten von 2019","numberOfSentences":996,"numberOfTypes":4137,"numberOfTokens":14721,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"lat_wikipedia_2012_100K","description":"Latin Wikipedia subcorpus based on material from 2012 (100,000 sentences)","description_deu":"Latein Wikipedia-Teilkorpus basierend auf Texten von 2012 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":196886,"numberOfTokens":1447267,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"lug_community_2017","description":"Ganda community corpus. Please be aware that community corpora are updated in irregular intervals.","description_deu":"Ganda community corpus. Please be aware that community corpora are updated in irregular intervals.","numberOfSentences":78609,"numberOfTypes":178354,"numberOfTokens":1244366,"thanksTo":"","posTagger":"","annotations":"coocSim"},{"corpusName":"nep_news_2010_300K","description":"Nepali news subcorpus based on material from 2010 (300,000 sentences)","description_deu":"Nepali Nachrichten-Teilkorpus basierend auf Texten von 2010 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":306437,"numberOfTokens":4725956,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"nep_news_2010_10K","description":"Nepali news subcorpus based on material from 2010 (10,000 sentences)","description_deu":"Nepali Nachrichten-Teilkorpus basierend auf Texten von 2010 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":35146,"numberOfTokens":157722,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"nld_news_2011_1M","description":"Dutch news subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Niederländisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":441568,"numberOfTokens":15500852,"thanksTo":"","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"nld_news_2012_300K","description":"Dutch news subcorpus based on material from 2012 (300,000 sentences)","description_deu":"Niederländisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":184881,"numberOfTokens":4619876,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"nso-za_web_2018_10K","description":"Sepedi Web subcorpus (South Africa) based on material from 2018 (10,000 sentences)","description_deu":"Pedi Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":19477,"numberOfTokens":213527,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"pol_news_2011_1M","description":"Polish news subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Polnisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":629797,"numberOfTokens":14432818,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"por_news_2013_1M","description":"Portuguese news subcorpus based on material from 2013 (1,000,000 sentences)","description_deu":"Portugiesisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":278066,"numberOfTokens":19054351,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"ron_news_2011_300K","description":"Romanian news subcorpus based on material from 2011 (300,000 sentences)","description_deu":"Rumänisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":240135,"numberOfTokens":5316634,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"run_community_2017","description":"Rundi community corpus. Please be aware that community corpora are updated in irregular intervals.","description_deu":"Rundi community corpus. Please be aware that community corpora are updated in irregular intervals.","numberOfSentences":17361,"numberOfTypes":56828,"numberOfTokens":325231,"thanksTo":"","posTagger":"","annotations":"coocSim"},{"corpusName":"rus_news_2013_1M","description":"Russian news subcorpus based on material from 2013 (1,000,000 sentences)","description_deu":"Russisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":710995,"numberOfTokens":17325431,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"sna-zw_web_2018_100K","description":"Shona Web subcorpus (Zimbabwe) based on material from 2018 (100,000 sentences)","description_deu":"Schona Web-Teilkorpus (Simbabwe) basierend auf Texten von 2018 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":184428,"numberOfTokens":1434647,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"sot-za_web_2018_10K","description":"Southern Sotho Web subcorpus (South Africa) based on material from 2018 (10,000 sentences)","description_deu":"Süd-Sotho Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":19391,"numberOfTokens":213418,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"spa_news_2011_3M","description":"Spanish news subcorpus based on material from 2011 (3,000,000 sentences)","description_deu":"Spanisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (3.000.000 Sätze)","numberOfSentences":3000000,"numberOfTypes":791982,"numberOfTokens":67631693,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"spa_news_2011_1M","description":"Spanish news subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Spanisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":407054,"numberOfTokens":22674098,"thanksTo":"","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"spa_wikipedia_2011_1M","description":"Spanish Wikipedia subcorpus based on material from 2011 (1,000,000 sentences)","description_deu":"Spanisches Wikipedia-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":641697,"numberOfTokens":21746003,"thanksTo":"Data,Wikipedia,https://www.wikipedia.org","posTagger":"TreeTagger","annotations":"coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim"},{"corpusName":"swe_news_2012_300K","description":"Swedish news subcorpus based on material from 2012 (300,000 sentences)","description_deu":"Schwedisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":250004,"numberOfTokens":4257523,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"tat_web_2018_1M","description":"Tatar Web subcorpus based on material from 2018 (1,000,000 sentences)","description_deu":"Tatarisches Web-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":534114,"numberOfTokens":12648131,"thanksTo":"Support,Mansur Saykhunov,http://www.corpus.tatar/en","posTagger":"","annotations":""},{"corpusName":"tgl_newscrawl_2013_300K","description":"Tagalog news subcorpus based on material crawled in 2013 (300,000 sentences)","description_deu":"Tagalog Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (300.000 Sätze)","numberOfSentences":300000,"numberOfTypes":205266,"numberOfTokens":5748008,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"tso-za_web_2018_10K","description":"Tsonga Web subcorpus (South Africa) based on material from 2018 (10,000 sentences)","description_deu":"Tsonga Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (10.000 Sätze)","numberOfSentences":10000,"numberOfTypes":21796,"numberOfTokens":193836,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"tur_newscrawl_2013_1M","description":"Turkish news subcorpus based on material crawled in 2013 (1,000,000 sentences)","description_deu":"Türkisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":743893,"numberOfTokens":13564944,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"ukr_newscrawl_2011_1M","description":"Ukrainian news subcorpus based on material crawled in 2011 (1,000,000 sentences)","description_deu":"Ukrainisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2011 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":599809,"numberOfTokens":15785757,"thanksTo":"","posTagger":"","annotations":"wordsLevenshteinSim"},{"corpusName":"urd_news_2013_1M","description":"Urdu news subcorpus based on material from 2013 (1,000,000 sentences)","description_deu":"Urdu Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":267915,"numberOfTokens":24872284,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"vie_newscrawl_2013_1M","description":"Vietnamese news subcorpus based on material crawled in 2013 (1,000,000 sentences)","description_deu":"Vietnamesisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)","numberOfSentences":1000000,"numberOfTypes":391670,"numberOfTokens":18037085,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"xho_community_2019","description":"Xhosa community corpus based on material from 2019","description_deu":"Xhosa Community-Korpus basierend auf Texten von 2019","numberOfSentences":63387,"numberOfTypes":172484,"numberOfTokens":805022,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"xho-za_web_2018_30K","description":"Xhosa Web subcorpus (South Africa) based on material from 2018 (30,000 sentences)","description_deu":"Xhosa Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (30.000 Sätze)","numberOfSentences":30000,"numberOfTypes":112277,"numberOfTokens":441630,"thanksTo":"","posTagger":"","annotations":""},{"corpusName":"zul_mixed_2014_100K","description":"Zulu mixed subcorpus based on material from 2014 (100,000 sentences)","description_deu":"Zulu Gemischt-Teilkorpus basierend auf Texten von 2014 (100.000 Sätze)","numberOfSentences":100000,"numberOfTypes":260134,"numberOfTokens":1341123,"thanksTo":"","posTagger":"","annotations":"coocSim, GDEX, wordsLevenshteinSim"},{"corpusName":"zul-za_web_2018_30K","description":"Zulu Web subcorpus (South Africa) based on material from 2018 (30,000 sentences)","description_deu":"Zulu Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (30.000 Sätze)","numberOfSentences":30000,"numberOfTypes":117701,"numberOfTokens":394618,"thanksTo":"","posTagger":"","annotations":""}]