Niet alle headsets zijn geschikt voor spraakherkenning. Een stem is een analoog signaal en deze moet worden omgezet in een digitaal signaal. Digitale audio wordt door spraak-herkenning opgepakt en omgezet in tekst.

Uitleg over de stem:

Spraak zijn trillingen en deze trillingen worden door je stembanden gemaakt. De trillingen verlaten je keel, langs je tanden en wangen waardoor ze van vorm kunnen veranderen. Bijvoorbeeld door de stand van je mond te veranderen komen de klanken anders naar buiten. Het stoten van de trillingen tegen mond, tanden en wangen noemen we reflecties.

Een vrouw heeft kortere stembanden en een kleiner mond-keelkanaal, waardoor de spraak van vrouwen anders is dan bij mannen, niet alleen hoger. Bij transgenders worden de stembanden wel eens ingekort om de zware stem te veranderen.

De frequentie van een mannenstem ligt rond de 100 Hz, de vrouwenstem rond de 200 Hz en een Nederlandse kinderstem rond de 300 Hz. Het verschil is dus een octaaf. Een menselijk oor is het gevoeligst rond de 1000 Hz. Maar niet alleen de frequentie is van belang, ook de stemtaal. Stemtaal is de stemkwaliteit, intonatie, spreektoon, melodie, stemsterkte en de wisseling van deze aspecten. Voor spraakherkenning is daarnaast ook de articulatie van belang.