Onderzoek: mensen kunnen AI-stemmen nauwelijks onderscheiden van menselijke spraak

Mensen zijn slecht in staat om onderscheid te maken tussen door AI gegenereerde stemmen en echte menselijke spraak. Dat blijkt uit nieuw onderzoek van wetenschappers van Tianjin University en de Chinese University of Hong Kong, gepubliceerd in het wetenschappelijke tijdschrift eNeuro.

Voor het onderzoek luisterden dertig deelnemers naar zinnen die waren ingesproken door echte mensen of gegenereerd door AI-stemmen. De proefpersonen moesten telkens aangeven of zij dachten dat de spreker een mens of een AI-stem was. De test werd zowel vóór als na een korte trainingssessie uitgevoerd.

Uit de resultaten blijkt dat deelnemers het verschil nauwelijks konden herkennen. De korte training verbeterde hun prestaties slechts minimaal.

Op hersenniveau zagen de onderzoekers echter wel een verandering. Na de training reageerde het auditieve systeem van de hersenen duidelijker verschillend op menselijke spraak en AI-stemmen (TTS). Volgens hoofdonderzoeker Xiangbin Teng suggereert dit dat het brein subtiele akoestische verschillen begint te herkennen, ook al kunnen mensen die nog niet goed omzetten in een bewuste beslissing.

De onderzoekers zien dat als een hoopvolle ontwikkeling. Het kan volgens hen helpen bij het ontwikkelen van methoden om bijvoorbeeld deepfake-audio beter te herkennen.

Het onderzoek verscheen onder de titel Short-Term Perceptual Training Modulates Neural Responses to Deepfake Speech but Does Not Improve Behavioral Discrimination in het tijdschrift eNeuro (2026).