Comprensió del reconeixement de veu

Proveu El Nostre Instrument Per Eliminar Problemes





Imagineu-vos assegut relaxat al sofà i només demanant al vostre ordinador, portàtil o telèfon mòbil que realitzi tasques senzilles com escriure una carta o realitzar poques ordres. És possible?

Per descomptat, és aquí on apareix el reconeixement de veu.




Seguint la definició, és el procés de reconeixement de la parla humana i la descodifica en forma de text.

Principi

El principi bàsic de reconeixement de veu implica el fet que la parla o les paraules que digui qualsevol ésser humà provoquin vibracions a l’aire, conegudes com a ones sonores. Aquestes ones contínues o analògiques es digitalitzen i es processen i després es descodifiquen en paraules adequades i després en frases adequades.



reconeixement de veu

Components d’un sistema de reconeixement de veu

Llavors, en què consisteix un sistema bàsic de reconeixement de veu?

Components d’un sistema de reconeixement de veu

  • Un dispositiu de captura de veu : Consisteix en un micròfon que converteix els senyals d'ona sonora en senyals elèctrics i un convertidor analògic a digital que mostra i digitalitza els senyals analògics per obtenir les dades discretes que l'ordinador pot entendre.
  • Un mòdul de senyal digital o un processador : Realitza el processament del senyal de veu cru com la conversió de domini de freqüència, restaurant només la informació necessària, etc.
  • Emmagatzematge de senyals processat prèviament : El disc processat prèviament s’emmagatzema a la memòria per dur a terme una altra tasca de reconeixement de veu.
  • Patrons de parla de referència : L'ordinador o el sistema consta de patrons de veu predefinits o plantilles ja emmagatzemades a la memòria, que s'utilitzaran com a referència per fer coincidir.
  • Algorisme de concordança de patrons : El senyal de veu desconegut es compara amb el patró de parla de referència per determinar les paraules reals o el patró de paraules.
Funcionament del sistema

Ara vegem com funciona tot el sistema.


Funcionament del sistema

  • Un discurs es pot veure com una forma d'ona acústica, és a dir, un senyal que transporta informació del missatge. Un ésser humà normal amb una velocitat limitada de moviment dels seus articuladors (òrgans de parla) pot produir parla a una velocitat mitjana de 10 sons per segon. La taxa d'informació mitjana és d'aproximadament 50-60 bits / segon. Significa que en realitat només es necessiten 50 bits / segon d'informació en el senyal de veu. Aquesta forma d’ona acústica es converteix en senyals elèctrics analògics pel micròfon. El convertidor analògic a digital converteix aquest senyal analògic en mostres digitals prenent mesures precises de l’ona a intervals discrets.
  • El senyal digitalitzat consisteix en un flux de senyals periòdics mostrejats a 16.000 vegades per segon i no és adequat per dur-lo a terme realment reconeixement de veu procés ja que el patró no es pot localitzar fàcilment. Per extreure la informació real, el senyal en domini de temps es converteix en senyal en domini de freqüència. Ho fa el processador de senyal digital mitjançant la tècnica FFT. Al senyal digital, el component després de cada 1/100thd'un segon s'analitza i es calcula l'espectre de freqüències per a cada component. En altres paraules, el senyal digitalitzat es segmenta en petites parts d'amplituds de freqüència.
  • Cada segment o el gràfic de freqüències representa els diferents sons que produeixen els éssers humans. L'ordinador fa coincidir els segments desconeguts amb la fonètica emmagatzemada de l'idioma en particular. Aquesta coincidència de patrons es fa de tres maneres:

Utilitzant un enfocament fonètic acústic : En l'enfocament fonètic acústic, s'utilitza generalment el model Markov ocult. Aquest model desenvolupa un model de probabilitat no determinista per al reconeixement de la parla. Aquest model consta de dues variables: els estats ocults dels fonemes emmagatzemats a la memòria de l'ordinador i el segment de freqüència visible del senyal digital. Cada fonema té la seva pròpia probabilitat i el segment es fa coincidir amb el fonema segons la probabilitat i els fonemes coincidents es recullen junts per formar les paraules correctes segons les regles gramaticals emmagatzemades de la llengua.

Utilitzar un enfocament de reconeixement de patrons : En l'enfocament de reconeixement de patrons, el sistema s'entren amb un patró de parla particular per a qualsevol idioma i el patró de parla desconegut es compara amb el patró de parla de referència determinant la distància entre els senyals mitjançant la tècnica de deformació del temps.

Utilitzant la intel·ligència artificial : L'enfocament de la intel·ligència artificial es basa en la utilització de fonts bàsiques de coneixement, com ara el coneixement dels sons parlats sobre la base de mesures espectrals, el coneixement de paraules sintàctiques i significatives adequades.

Factors dels quals depèn el sistema de reconeixement de veu

El sistema de reconeixement de veu depèn dels següents factors:

  • Paraules aïllades : Cal que hi hagi una pausa entre les paraules consecutives que es diuen perquè les paraules contínues es poden superposar, cosa que dificulta la comprensió del sistema quan comença o acaba una paraula. Per tant, cal que hi hagi un silenci entre paraules consecutives.
  • Ponent únic : Molts altaveus que intenten donar entrada de veu al mateix temps poden provocar la superposició de senyals i les interrupcions. La majoria dels sistemes de reconeixement de veu que s’utilitzen són sistemes dependents de l’altaveu.
  • Mida del vocabulari : Les llengües amb vocabulari gran són difícils de considerar per a la concordança de patrons que les que tenen vocabulari petit, ja que les possibilitats de tenir paraules ambigües són menors en aquest últim.
Sistema de reconeixement de veu al Windows 7

M'agradaria recomanar els passos següents per a qualsevol persona que utilitzi Windows 7 per al sistema de reconeixement de veu

  • Obriu el Tauler de control des del menú d’inici o fent clic a la icona.
  • Seleccioneu Facilitat d’accés i feu clic a Reconeixement de veu.
  • A continuació, feu clic a Configura micròfon i seleccioneu el micròfon d'escriptori entre les opcions disponibles.
  • A continuació, seguiu el tutorial de parla i seguiu les instruccions donades.
  • Després, formeu l’ordinador per obtenir millors opcions perquè l’ordinador emmagatzemi un patró definit del vostre senyal de parla. Per fer-ho, feu clic a l'opció 'capacita el teu equip per entendre't millor' i, a continuació, segueix les instruccions.
  • Ara inicieu la icona de reconeixement de veu i comenceu a dictar la veu a l'ordinador. També podeu afegir les vostres paraules al diccionari de l’ordinador.
Sistemes pràctics de reconeixement de la parla: utilitzant HM2007

Es pot construir un sistema pràctic de reconeixement de veu mitjançant el reconeixement de veu IC HM2007 . El HM2007 és un CI de 48 pins que proporciona una funció de reconeixement de veu. Funciona en dos modes: mode manual o mode CPU. En ambdós modes, l’IC és entrenat primer per reconèixer les paraules de l’usuari dient cada paraula per al número corresponent premut a la tecla. L'IC emmagatzema cada senyal de paraula a la ubicació de memòria corresponent a la paraula. Les dades de sortida de l’IC s’interfacen amb el microcontrolador des d’on es mostra a la pantalla LCD.

Sistemes pràctics de reconeixement de la parla

Normalment utilitzem el mode manual per al funcionament de l'HM2007.

  • L'HM2007 consisteix en un pin RDY que és un pin baix actiu que indica que el CI està preparat per a l'entrenament.
  • L’entrada de veu es donarà a través d’un micròfon connectat al pin MICIN de l’IC.
  • El CI està connectat amb un teclat que s'utilitza per proporcionar l'entrada de número corresponent a cada paraula. El CI funciona en dues funcions: netejar i entrenar. Quan es prem la tecla Tren al teclat, l'IC comença el seu procés d'entrenament.
  • L'usuari prem una tecla numèrica abans de prémer la tecla de funció 'Entrena' i diu la paraula necessària al micròfon.
  • L'IC envia un senyal elevat al pin ME (Memory Enable) que està connectat al pin ME corresponent de SRAM. El senyal de dades de 8 bits corresponent al número premut s’emmagatzema a la SRAM (RAM externa) a través del bus extern.
  • Després de detectar l'entrada de veu, el pin RDY està a la lògica màxima i l'IC arriba a l'estat de reconeixement, on inicia el procés de reconeixement.
  • El resultat del procés es dóna a través del bus de dades amb el pin DEN (Data Enable) alt.
  • Les dades de 8 bits es poden donar al microcontrolador mitjançant un processador d'interfície de sèrie o, primer, es poden bloquejar mitjançant el latch IC 74HC573.
  • El microcontrolador està connectat amb una pantalla LCD i es programa de manera que es mostri la paraula corresponent a la pantalla.

L'única precaució que cal prendre és no utilitzar homònims (paraules amb so similar) i també tenir cura de l'excitació en la veu.

Així, doncs, tot això és com sistema bàsic de reconeixement de veu funciona. Es poden afegir altres aportacions.

Crèdit per a la imatge

  • Sistema de reconeixement de parla de Gstàtic
  • Manipulació de formes d 'ona de parla per Dadisp

Components del sistema de reconeixement de veu mitjançant una introducció al reconeixement de veu i parlants - Richard D. Peacocke i Daryl H. Graf