Super-rezolucija zvučnog signala metodama strojnog učenja

Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 u...

Full description

Bibliographic Details
Main Author:	Kovačević-Vranjican, Marin
Other Authors:	Gotovac, Sven
Format:	Master Thesis
Language:	Croatian
Published:	Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo. 2022
Subjects:	super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing sami
Online Access:	https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF

_version_	1821701075901612032
author	Kovačević-Vranjican, Marin
author2	Gotovac, Sven
author_facet	Kovačević-Vranjican, Marin
author_sort	Kovačević-Vranjican, Marin
collection	The University of Split Repository
description	Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 uzastopne inačice gdje zadnja ima najbolje performanse. Prvi model, onaj od kojeg druga dva potiču, temelji se na modelu U-mreže sa rezidualnim vezama. Takva se arhitektura primjenjuje ne samo kod njegovih nasljednika, već i kod nepovezanih modela. Iduća inačica uvodi TFiLM sloj temeljen na LSTM mreži s ciljem da se u skrivenom stanju modela sadrži kontekst proteklog dijela sekvence podataka. To se znanje primijenjuje na daljnju generaciju podataka. Završna inačica TFiLM slojeve mijenja AFiLM slojevima. AFiLM slojevi koriste mehanizam transformatora koji je u novije vrijeme stekao veliku popularnost kod generativnih zadataka. Ova inačica postiže bolje rezultate, a uz to se i brže izvršava jer je pogodnija za paralelnu obradu podataka. Preostali modeli su NU-Wave temeljen na difuzijskom probabilističkom modelu za otklanjanje šuma, metodi čija je vrijednost dokazana kod super-rezolucije slika, i NVSR temeljen na super-rezoluciji u dva koraka: iz mel-spektrograma niske rezolucije u mel-spektrogram više rezolucije i iz mel-spektrograma više rezolucije u valni oblik visoke, to jest ciljne rezolucije. Iako se NVSR pokazao kao model s uvjerljivo najboljim performansama i fleksibilnosti, za potrebe ovog rada zbog pristupačnije implementacije odabrana je U-mreža s AFiLM slojevima. Za sami tok medijskih podataka odabran je WebRTC protokol. Taj je protokol dizajniran za performanse, a to postiže izravnom komunikacijom između klijenata. Da bi osigurao vezu izmedu klijenata, oslanja se na ICE protokol koji pronalazi najbolji put kroz mrežu od jednog klijenta do drugog. Implementirane su dvije aplikacije, monolitna i višeslojna, koje prikazuju primjenu odabranog super-rezolucijskog modela na WebRTC tok podataka. Monolitna aplikacija ...
format	Master Thesis
genre	sami
genre_facet	sami
id	ftunivsplit:oai:repozitorij.svkst.unist.hr:fesb_932
institution	Open Polar
language	Croatian
op_collection_id	ftunivsplit
op_relation	https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF
op_rights	http://rightsstatements.org/vocab/InC/1.0/ info:eu-repo/semantics/restrictedAccess
publishDate	2022
publisher	Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo.
record_format	openpolar
spelling	ftunivsplit:oai:repozitorij.svkst.unist.hr:fesb_932 2025-01-17T00:38:39+00:00 Super-rezolucija zvučnog signala metodama strojnog učenja Super-resolution of sound signal using machine learning methods Kovačević-Vranjican, Marin Gotovac, Sven 2022-09-23 application/pdf https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF hrv hrv Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo. University of Split. Faculty of Electrical Engineering, Mechanical Engineering and Naval Architecture. Department of Electronics and Computing. https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF http://rightsstatements.org/vocab/InC/1.0/ info:eu-repo/semantics/restrictedAccess super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing info:eu-repo/semantics/masterThesis text 2022 ftunivsplit 2024-11-18T01:30:15Z Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 uzastopne inačice gdje zadnja ima najbolje performanse. Prvi model, onaj od kojeg druga dva potiču, temelji se na modelu U-mreže sa rezidualnim vezama. Takva se arhitektura primjenjuje ne samo kod njegovih nasljednika, već i kod nepovezanih modela. Iduća inačica uvodi TFiLM sloj temeljen na LSTM mreži s ciljem da se u skrivenom stanju modela sadrži kontekst proteklog dijela sekvence podataka. To se znanje primijenjuje na daljnju generaciju podataka. Završna inačica TFiLM slojeve mijenja AFiLM slojevima. AFiLM slojevi koriste mehanizam transformatora koji je u novije vrijeme stekao veliku popularnost kod generativnih zadataka. Ova inačica postiže bolje rezultate, a uz to se i brže izvršava jer je pogodnija za paralelnu obradu podataka. Preostali modeli su NU-Wave temeljen na difuzijskom probabilističkom modelu za otklanjanje šuma, metodi čija je vrijednost dokazana kod super-rezolucije slika, i NVSR temeljen na super-rezoluciji u dva koraka: iz mel-spektrograma niske rezolucije u mel-spektrogram više rezolucije i iz mel-spektrograma više rezolucije u valni oblik visoke, to jest ciljne rezolucije. Iako se NVSR pokazao kao model s uvjerljivo najboljim performansama i fleksibilnosti, za potrebe ovog rada zbog pristupačnije implementacije odabrana je U-mreža s AFiLM slojevima. Za sami tok medijskih podataka odabran je WebRTC protokol. Taj je protokol dizajniran za performanse, a to postiže izravnom komunikacijom između klijenata. Da bi osigurao vezu izmedu klijenata, oslanja se na ICE protokol koji pronalazi najbolji put kroz mrežu od jednog klijenta do drugog. Implementirane su dvije aplikacije, monolitna i višeslojna, koje prikazuju primjenu odabranog super-rezolucijskog modela na WebRTC tok podataka. Monolitna aplikacija ... Master Thesis sami The University of Split Repository
spellingShingle	super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing Kovačević-Vranjican, Marin Super-rezolucija zvučnog signala metodama strojnog učenja
title	Super-rezolucija zvučnog signala metodama strojnog učenja
title_full	Super-rezolucija zvučnog signala metodama strojnog učenja
title_fullStr	Super-rezolucija zvučnog signala metodama strojnog učenja
title_full_unstemmed	Super-rezolucija zvučnog signala metodama strojnog učenja
title_short	Super-rezolucija zvučnog signala metodama strojnog učenja
title_sort	super-rezolucija zvučnog signala metodama strojnog učenja
topic	super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing
topic_facet	super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing
url	https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF

Super-rezolucija zvučnog signala metodama strojnog učenja

Similar Items