Miks on kõne automaatne transkribeerimine igapäevaelus hea idee?

Ilmselt on paljud elu jooksul kohtunud mingite praktikatega, mis on küll olemas olnud, kuid millegipärast ise ei ole kasutama hakanud ja kasutama hakates paneb lausa imestama, miks ma varem seda teinud ei ole. Üks selliseid praktikaid võib olla häälsõnumite salvestamine ning nende transkribeerimine.
Häälsõnumid ei ole midagi erakorralist ning on nutitelefonide kasutuselevõtuga kõikidele kättesaadav. Küll aga on viimastel aastatel jõudsalt arenenud helisalvestise transkribeerimise võimalused. Ja kui need kaks kombineerida, siis võib igapäevaelus teha väikese kvalitatiivse sammu edasi, sest head mõtted saab salvestada hetkega ning nende transkriptsioon ootab vaid kasutamist. St, mõtted ei lähe kunagi kaotsi ja on talletatud vähemalt kahel erineval viisil ning neid on võimalik analüüsida, täindada, jne.

Automaatne kõne transkribeerimine

Automaatne kõne transkribeerimine, mida hõlbustavad sellised tehnoloogiad nagu Plaud.ai, on tänu automaatsete kõnetuvastussüsteemide (ASR) edusammudele saavutanud märkimisväärse populaarsuse. ASR-süsteemid on loodud kõnekeele teksti teisendamiseks, võimaldades tõhusalt kõnedokumentide transkribeerimist (Khalaf, 2015). Need süsteemid kasutavad täpseks kõneandmete transkribeerimiseks ja segmenteerimiseks selliseid tehnikaid nagu tehisnärvivõrgud ja masinõpe (Pan et al., 2019). ASR-tehnoloogia kasutamine on laienenud transkriptsiooniteenustest kaugemale, leidudes rakendusi erinevates valdkondades, näiteks tervishoius, kus seda kasutatakse arst-patsient kohtumiste ajal reaalajas transkriptsiooniteenuste pakkumiseks (Kernberg, 2024). Uuringud näitavad, et ASR-tehnoloogia on oluline keelelise analüüsi ja inimese-arvuti interaktsiooni jaoks, mõjutades kasutajate tõlgendusi tehnoloogiavahendite poolt loodud kõnest (Zellou, 2024). Lisaks on ASR-i integreerimine automaatse masintõlkega näidanud võimalusi tõlke parandamisel, eriti telepsühhiaatrias (Tougas et al., 2022). ASR-i tõhusust Alzheimeri tõve diagnoosimise abistamisel on samuti uuritud, rõhutades selle potentsiaali kõnepõhiste diagnostiliste testide väljatöötamisel (Sadeghian et al., 2021). Lisaks on uuritud kõnetuvastuse tõhusust ja ohutust dokumenteerimisel elektroonilistes tervisekaartides, näidates potentsiaalseid aja ja kasutusmugavuse eeliseid elektroonilise dokumentatsiooni puhul, kui seda kombineerida loomuliku keelega (Hodgson et al., 2017). Nii võibki öelda, et helisalvestised ja nende transkribeerimine võib igaühe tegemistele anda kvalitatiivse positiivse tõuke ning selle kasutamise võimalusi piirab vaid kujutlusvõime.

Kasutatud allikad

  • Hodgson, T., Magrabi, F., & Coiera, E. (2017). Efficiency and safety of speech recognition for documentation in the electronic health record. Journal of the American Medical Informatics Association, 24(6), 1127-1133. https://doi.org/10.1093/jamia/ocx073
  • Kernberg, A. (2024). Using chatgpt-4 to create structured medical notes from audio recordings of physician-patient encounters: comparative study. Journal of Medical Internet Research, 26, e54419. https://doi.org/10.2196/54419
  • Khalaf, Z. A. (2015). Mahir system: unsupervised segmentation for malay spoken broadcast news stories. International Journal of Information and Electronics Engineering, 5(3). https://doi.org/10.7763/ijiee.2015.v5.532
  • Pan, Y., Mirheidari, B., Reuber, M., Venneri, A., Blackburn, D., & Christensen, H. (2019). Automatic hierarchical attention neural network for detecting ad. Interspeech 2019. https://doi.org/10.21437/interspeech.2019-1799
  • Sadeghian, R., Schaffer, J., & Zahorian, S. (2021). Towards an automatic speech-based diagnostic test for alzheimer’s disease. Frontiers in Computer Science, 3. https://doi.org/10.3389/fcomp.2021.624594
  • Tougas, H., Chan, S., Shahrvini, T., Gonzalez, A., Reyes, R., Parish, M., … & Yellowlees, P. (2022). The use of automated machine translation to translate figurative language in a clinical setting: analysis of a convenience sample of patients drawn from a randomized controlled trial. Jmir Mental Health, 9(9), e39556. https://doi.org/10.2196/39556
  • Zellou, G. (2024). Linguistic analysis of human-computer interaction. Frontiers in Computer Science, 6. https://doi.org/10.3389/fcomp.2024.1384252