Spraakherkenning Python: hoe spraak naar tekst te vertalen?



Deze blog behandelt het concept van spraakherkenning in Python met een voorbeeldprogramma dat spraak vertaalt in tekst met behulp van spraakherkenning.

Spraak is het meest gebruikte communicatiemiddel over de hele wereld. Het grootste deel van de bevolking in de wereld is afhankelijk van spraak om met elkaar te communiceren. Stel dat we een model aan het bouwen zijn en in plaats van een schriftelijke benadering willen we dat ons systeem reageert op spraak, dan wordt het vrij moeilijk en zijn er veel gegevens nodig om te verwerken. Een spraakherkenningssysteem overwint deze barrière door spraak naar tekst te vertalen. In deze blog gaan we de spraakherkenning doornemen module in python . Hier is de lijst met hetzelfde:

Hoe werkt spraakherkenning?

Het spraakherkenningssysteem vertaalt in feite de gesproken uitingen naar tekst. Er zijn verschillende praktijkvoorbeelden van spraakherkenningssystemen. Bijvoorbeeld Siri, die de spraak als invoer neemt en deze in tekst vertaalt.





Het voordeel van het gebruik van een spraakherkenningssysteem is dat het de barrière van geletterdheid overwint. Een spraakherkenningsmodel kan zowel geletterd als analfabeet publiek bedienen, aangezien het zich richt op gesproken uitingen.

We kunnen ook een inventaris maken van alle bedreigde talen over de hele wereld met behulp van een spraakherkenningssysteem. Hoewel het er behoorlijk intrigerend en helemaal niet complex uitziet, staat een spraakherkenningssysteem voor veel uitdagingen in de maak.



Uitdagingen waarmee spraakherkenning wordt geconfronteerd Systeem

Een spraakherkenningssysteem wordt moeilijk te maken omdat we zoveel bronnen van variabiliteit hebben als het om spraak gaat.

Stijl van spreken

Ieder individu heeft een gevarieerde manier van spreken, inclusief accenten. Zoals we allemaal weten, hebben we ook verschillende accenten om Engels te spreken. Er is Amerikaans Engels, Brits Engels en zoveel andere accenten als het gaat om het spreken van de meest voorkomende taal ter wereld. Uitspraak maakt het ook moeilijk voor een spraakherkenningssysteem om de spraak helemaal te vertalen.



Milieu

De omgeving voegt ook veel achtergrondgeluid toe aan het systeem. Een geïsoleerde ruimte in vergelijking met een auditorium zal veel variatie in achtergrondgeluiden hebben. Zelfs echo kan ook veel ruis in het systeem toevoegen.

Luidsprekerkarakteristieken

De stem van een oude persoon is misschien niet dezelfde als die van een baby. De kenmerken van iemands spraak zijn afhankelijk van veel factoren, waaronder ook de hardheid en helderheid.

Taalbeperkingen

Sommige gesproken uitingen hebben misschien geen haalbare betekenis als het om vertaling gaat.

Na het overwinnen van deze uitdagingen, is het voor elk spraakherkenningssysteem redelijk haalbaar om spraak naar tekst te vertalen. Nu we weten hoe spraakherkenning werkt, laten we eens kijken naar verschillende die beschikbaar zijn voor spraakherkenning in python.

Pakketten beschikbaar voor spraakherkenning in python

We zullen de details van het SpeechRecognition-pakket in deze blog doornemen, laten we ook een kijkje nemen in de geheugenstrook om te begrijpen hoe spraakherkenningssystemen zich in de loop der jaren hebben ontwikkeld.

Het allereerste prototype van de spraakherkenning was in feite speelgoed, genaamd radio rex die rond 1920 kwam. Er zat een hond in een hondenhok die eruit zou springen zodra iemand het woord rex uitsprak.

Het enige probleem met het model was dat de veer was bevestigd aan een elektromagneet die gevoelig was voor energie van rond de 500hz. Omdat het puur een frequentiedetector is, zou het op afstand een spraakherkenningsmodel kunnen worden genoemd.

In 1962 kwam IBM met een schoenendoos model dat in staat was om geïsoleerde woorden te herkennen en ook een paar rekenkundige bewerkingen uit te voeren.

Toen kwam HARPIJ van CMU, dat in staat was om verbonden spraak te herkennen uit een woordenschat van 1000 woorden. Rond de jaren tachtig begonnen mensen statistische modellen te gebruiken en een van de meest gebruikte paradigma's van machine learning was het verborgen markov-model.

Na de introductie van diepe neurale netwerken werken de meeste spraakherkenningsmodellen op de neurale netwerken. De mogelijkheden zijn onvoorstelbaar met de neurale netwerken, het vocabulaire kan oplopen tot 10k woorden en meer.

Hoe installeer ik spraakherkenning in Python?

Om het SpeechRecognition-pakket te installeren is python, voer je de volgende opdracht uit in de terminal en het zal op je systeem worden geïnstalleerd.

installatie-spraakherkenning python-edureka

Een andere benadering hiervoor is het toevoegen van het pakket van de projectinterpreter als u dit gebruikt

Het pakket heeft een Recognizer-klasse, waar in feite de magie gebeurt. Het is eigenlijk een klasse die wordt gebruikt om de spraak te herkennen. Hieronder volgen zeven methoden die verschillende audiobronnen kunnen lezen met behulp van verschillende API's.

  • herkennen_bing ()
  • herkennen_google ()
  • herkennen_google_cloud ()
  • herkennen_houndify ()
  • herkennen_ibm ()
  • herkennen_wit ()
  • herkennen_sphinx ()

Herken_sphinx kan nu worden gebruikt om het spraakherkenningssysteem ook offline uit te voeren. Het vereist de installatie van Pocketsphinx.

spraakherkenning importeren als sr #instance van herkenningsklasse r = sr.Recognizer ()

Input nemen van microfoons

Om de microfoons te gebruiken, moeten we ook een pyaudio-module installeren. We gebruiken de microfoonklasse om de invoerspraak van de microfoon te krijgen in plaats van een andere invoermethode zoals een audiobestand.

Voor de meeste projecten kunnen we de standaardmicrofoons gebruiken. Maar als u de standaardmicrofoon niet wilt gebruiken,u kunt de lijst met microfoonnamen ophalen met de methode list_microphone_names.

Om de input van de microfoon vast te leggen, gebruiken we de luistermethode.

spraakherkenning importeren als sr r = sr.Recognizer () met sr.Microphone () als bron: audio = sr.listen (bron)

Hoe Pyaudio in Python te installeren?

Om Pyaudio in python te installeren, voert u de volgende opdracht uit in de terminal of als u pycharm gebruikt, voegt u het pakket van de projectinterpreter toe aan de instellingen.

Use Case

We zullen een programma maken met behulp van de spraakherkenningsmodule in Python om spraak te herkennen en het volgende uit te voeren:

  1. converteer de spraak naar tekst
  2. open een URL met behulp van de webbrowser-module
  3. geef een zoekopdracht door met behulp van spraakherkenning om een ​​zoekopdracht in de url uit te voeren

Hieronder volgt het programma voor de bovenstaande probleemstelling:

importeer speech_recognition als sr importeer webbrowser als wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () met sr.Microphone () als bron: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' met sr . Microfoon () als bron: print ('zoek uw zoekopdracht') audio = r2.listen (bron) probeer: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) behalve sr.UnknownValueError: print ('error') behalve sr.RequestError als e: print ('failed'.format (e)) als' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'met sr.Microphone () als bron: print (' zoek naar een video ') audio = r2.listen (bron) probeer: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) behalve sr.UnknownValueError: print ('kon het niet begrijpen') behalve sr.RequestError als e: print (kon geen resultaten ophalen '. format (e) )

U krijgt de uitvoer zoals deze in de afbeelding wordt weergegeven. Als u edureka zegt, wordt u gevraagd om de zoekopdracht die u wilt zoeken in de edureka-url uit te spreken die we in de url-variabele hebben geschreven. Als je python zegt, krijg je de volgende webpagina geopend in de browser.

In deze blog hebben we besproken hoe we spraakherkenning in python kunnen gebruiken om spraak naar tekst te vertalen met behulp van het spraakherkenningspakket. is de behoefte van het uur geworden voor concepten als spraakherkenning of neerslachtigheid van objecten, met de die onvoorstelbare mogelijkheden bieden voor spraakherkenningssystemen waar we enorme spraakgegevens kunnen trainen en testen om een ​​systeem te bouwen. voor diepe neurale netwerken om uw vaardigheden onder de knie te krijgen en uw leerproces een vliegende start te geven.

heeft u vragen? vermeld ze in de opmerkingen, we nemen contact met u op.