Die Universität Leipzig beherbergt ein Projekt, das sich dem Sammeln deutscher Wörter widmet. Mit derzeit über 9 Millionen Wortformen sowie 35 Millionen Sätzen mit 500 Millionen laufenden Wörtern ist diese Sammlung die weltweit größte der deutschen Sprache.
Der ausgewertete Text besteht vor allem aus Zeitungstexten, zu einem geringeren Teil auch aus Fachtexten oder speziellen Wortlisten. Daher ist der Wortschatz der geschriebenen Umgangssprache zu einem sehr großen Teil abgedeckt. Dagegen gibt es noch Lücken im fachsprachlichen Bereich.
Quelle: Uwe Quasthoff (PDF)