Kostenlos verfügbar
Das bringt Mozillas Stimmen-Datensatz
03.03.2019Projekt "Common Voice" soll boomende Technologie vorantreiben.
Mozilla, der Hersteller des Firefox -Browsers, hat Ende der Woche den größten Datensatz menschlicher Stimmen verfügbar gemacht, der komplett von Freiwilligen eingesprochen wurde. Mit dem Projekt "Common Voice" soll der weltweit vielfältigste Sprachdatensatz erstellt werden. Doch was bringt das eigentlich?
>>>Nachlesen: Deshalb sind Siri, Alexa & Cortana weiblich
Bessere Chancen für kleine Unternehmen
Laut der Mozilla Foundation soll der kostenlos verfügbare Datensatz für die Entwicklung von Sprachtechnologien optimiert sein. Mit ihm sollen die derzeit so angesagten Sprachassistenten also weiter verbessert werden. Zudem sollen so auch kleinere Unternehmen die Chance haben, gegen die übermächtigen Konkurrenten wie Goolge, Apple, Amazon, Microsoft, Facebook, Samsung oder Nuance (hat Siri entwickelt) eine Chance zu haben. Die Initiative ist also wirklich vorbildlich, da sie vor allem kleineren Herstellern und Crowdfunding-Projekten ohne Lizenzgebühren ermöglicht, eigene Spracherkennungssysteme zu entwickeln. Bisher dominieren hier Alexa, Assistant, Siri und Cortana . Samsung versucht derzeit mit Nachdruck seinen Sprachassistenten "Bixby" konkurrenzfähig zu machen.
18 verschiedene Sprachen
Der Datensatz von Mozilla umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle, eine algerische Berbersprache. Der Datensatz summiert sich zu fast 1.400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.
Die von Mozilla eingesammelten Daten stehen unter der "CC0"-Lizenz zur Verfügung. Das ist die freizügigste Variante der Creative-Commons-Lizenzen ("No rights reserved"). Die Projekt-Teilnehmer haben dabei freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben. "Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden können", heißt es in dem Blog-Eintrag von Mozilla. Man wolle "zu einem vielfältigen und innovativen Ökosystem an Sprachtechnologien" beitragen. Ziel sei es, eigene sprachgesteuerte Produkte auf den Markt zu bringen, aber auch Forscher und kleinere Akteure zu unterstützen.
>>>Nachlesen: Sprachassistenten weiter am Vormarsch
Externer Link
Blog-Eintrag zu Common Voice