L’association Voice Lab et la plateforme de financement Datafunding ont lancé une campagne de collecte de données vocales pour alimenter l’écosystème numérique de la voix et de l’innovation en France, en Europe et dans le monde francophone.
« Les données de votre assistant vocal Google Home, Alexa ou Siri vous appartiennent. Faites-en don à la recherche française ! », suggère Karel Bourgois, Président du Voice Lab. L’objectif de cette association est de récolter 2000 heures de données vocales par l’intermédiaire d’un site web à partir duquel le candidat fournit son consentement au Voice Lab afin que celui-ci puisse récupérer ses données vocales auprès des éditeurs des assistants vocaux. « Aujourd’hui, de plus en plus de personnes souhaitent bénéficier d’appareils avec lesquels elles peuvent réellement communiquer naturellement. Pour développer de tels systèmes il est nécessaire d’accéder à des données vocales libres. C’est pourquoi nous lançons cette campagne dans le respect des données personnelles. Chaque participant est invité à partager les données vocales stockées chez les GAFAM dans une marketplace française. Celles-ci permettront à l’écosystème vocal français de développer des technologies souveraines indépendantes des géants du numérique. Cet acte citoyen permettra de soutenir l’écosystème vocal français et le développement d’une technologie vocale diverse, dynamique et souveraine », indique Karel Bourgois.
Les données récoltées sont anonymisées et normalisées pour contribuer aux corpus et créer des modèles de transcription indépendants et contributifs. L’ambition de la marketplace de Voice Lab est de fédérer de multiples acteurs pour mutualiser les datas et concevoir des modèles de reconnaissance vocale en langue française destinés à alimenter différents services open source de transcription automatique de la parole. À charge pour les acteurs institutionnels, privés ou publics de créer des services ou des produits vocaux en toute indépendance. Les laboratoires Français pourront ainsi lever de nombreux verrous, en particulier liés au volume et à la diversité des données disponibles, espère l’association.
Des bots vocaux pour de multiples usages
Parmi les produits et services qui pourraient être créés par les parties prenantes, Voice Lab évoque des applications de reconnaissance vocale dans de nombreux domaines métiers et à la base d’avancées en termes d’accessibilités (handicap visuel et auditif, illectronisme), mais aussi des assistants vocaux embarqués ou des dispositifs de compréhension des conversations dédiés à l’accueil téléphonique dans les services clients, voire de reconnaissance d’émotion ou de détection d’identité.
Les données sont hébergées dans le respect de la vie privée et du droit relatif à la protection des données personnelles, assure le Voice Lab, qui garantit en outre que les données seront utilisées en respectant les valeurs de l’IA éthique by design, telles que la considération, la transparence, la loyauté, la sécurité, l’équité et la maîtrise.
Image: chatbot Amelia