Super-rezolucija zvučnog signala metodama strojnog učenja

Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 u...

Full description

Bibliographic Details
Main Author: Kovačević-Vranjican, Marin
Other Authors: Gotovac, Sven
Format: Master Thesis
Language:Croatian
Published: Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo. 2022
Subjects:
Online Access:https://repozitorij.svkst.unist.hr/islandora/object/fesb:932
https://urn.nsk.hr/urn:nbn:hr:179:723564
https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF
id ftunivsplit:oai:repozitorij.svkst.unist.hr:fesb_932
record_format openpolar
spelling ftunivsplit:oai:repozitorij.svkst.unist.hr:fesb_932 2024-09-15T18:33:40+00:00 Super-rezolucija zvučnog signala metodama strojnog učenja Super-resolution of sound signal using machine learning methods Kovačević-Vranjican, Marin Gotovac, Sven 2022-09-23 application/pdf https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF hrv hrv Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo. University of Split. Faculty of Electrical Engineering, Mechanical Engineering and Naval Architecture. Department of Electronics and Computing. https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF http://rightsstatements.org/vocab/InC/1.0/ info:eu-repo/semantics/restrictedAccess super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing info:eu-repo/semantics/masterThesis text 2022 ftunivsplit 2024-07-29T14:19:03Z Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 uzastopne inačice gdje zadnja ima najbolje performanse. Prvi model, onaj od kojeg druga dva potiču, temelji se na modelu U-mreže sa rezidualnim vezama. Takva se arhitektura primjenjuje ne samo kod njegovih nasljednika, već i kod nepovezanih modela. Iduća inačica uvodi TFiLM sloj temeljen na LSTM mreži s ciljem da se u skrivenom stanju modela sadrži kontekst proteklog dijela sekvence podataka. To se znanje primijenjuje na daljnju generaciju podataka. Završna inačica TFiLM slojeve mijenja AFiLM slojevima. AFiLM slojevi koriste mehanizam transformatora koji je u novije vrijeme stekao veliku popularnost kod generativnih zadataka. Ova inačica postiže bolje rezultate, a uz to se i brže izvršava jer je pogodnija za paralelnu obradu podataka. Preostali modeli su NU-Wave temeljen na difuzijskom probabilističkom modelu za otklanjanje šuma, metodi čija je vrijednost dokazana kod super-rezolucije slika, i NVSR temeljen na super-rezoluciji u dva koraka: iz mel-spektrograma niske rezolucije u mel-spektrogram više rezolucije i iz mel-spektrograma više rezolucije u valni oblik visoke, to jest ciljne rezolucije. Iako se NVSR pokazao kao model s uvjerljivo najboljim performansama i fleksibilnosti, za potrebe ovog rada zbog pristupačnije implementacije odabrana je U-mreža s AFiLM slojevima. Za sami tok medijskih podataka odabran je WebRTC protokol. Taj je protokol dizajniran za performanse, a to postiže izravnom komunikacijom između klijenata. Da bi osigurao vezu izmedu klijenata, oslanja se na ICE protokol koji pronalazi najbolji put kroz mrežu od jednog klijenta do drugog. Implementirane su dvije aplikacije, monolitna i višeslojna, koje prikazuju primjenu odabranog super-rezolucijskog modela na WebRTC tok podataka. Monolitna aplikacija ... Master Thesis sami The University of Split Repository
institution Open Polar
collection The University of Split Repository
op_collection_id ftunivsplit
language Croatian
topic super-rezolucija zvuka
strojno učenje
WebRTC
JavaScript
Python
TensorFlow
audio super-resolution
machine learning
TEHNIČKE ZNANOSTI. Računarstvo
TECHNICAL SCIENCES. Computing
spellingShingle super-rezolucija zvuka
strojno učenje
WebRTC
JavaScript
Python
TensorFlow
audio super-resolution
machine learning
TEHNIČKE ZNANOSTI. Računarstvo
TECHNICAL SCIENCES. Computing
Kovačević-Vranjican, Marin
Super-rezolucija zvučnog signala metodama strojnog učenja
topic_facet super-rezolucija zvuka
strojno učenje
WebRTC
JavaScript
Python
TensorFlow
audio super-resolution
machine learning
TEHNIČKE ZNANOSTI. Računarstvo
TECHNICAL SCIENCES. Computing
description Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 uzastopne inačice gdje zadnja ima najbolje performanse. Prvi model, onaj od kojeg druga dva potiču, temelji se na modelu U-mreže sa rezidualnim vezama. Takva se arhitektura primjenjuje ne samo kod njegovih nasljednika, već i kod nepovezanih modela. Iduća inačica uvodi TFiLM sloj temeljen na LSTM mreži s ciljem da se u skrivenom stanju modela sadrži kontekst proteklog dijela sekvence podataka. To se znanje primijenjuje na daljnju generaciju podataka. Završna inačica TFiLM slojeve mijenja AFiLM slojevima. AFiLM slojevi koriste mehanizam transformatora koji je u novije vrijeme stekao veliku popularnost kod generativnih zadataka. Ova inačica postiže bolje rezultate, a uz to se i brže izvršava jer je pogodnija za paralelnu obradu podataka. Preostali modeli su NU-Wave temeljen na difuzijskom probabilističkom modelu za otklanjanje šuma, metodi čija je vrijednost dokazana kod super-rezolucije slika, i NVSR temeljen na super-rezoluciji u dva koraka: iz mel-spektrograma niske rezolucije u mel-spektrogram više rezolucije i iz mel-spektrograma više rezolucije u valni oblik visoke, to jest ciljne rezolucije. Iako se NVSR pokazao kao model s uvjerljivo najboljim performansama i fleksibilnosti, za potrebe ovog rada zbog pristupačnije implementacije odabrana je U-mreža s AFiLM slojevima. Za sami tok medijskih podataka odabran je WebRTC protokol. Taj je protokol dizajniran za performanse, a to postiže izravnom komunikacijom između klijenata. Da bi osigurao vezu izmedu klijenata, oslanja se na ICE protokol koji pronalazi najbolji put kroz mrežu od jednog klijenta do drugog. Implementirane su dvije aplikacije, monolitna i višeslojna, koje prikazuju primjenu odabranog super-rezolucijskog modela na WebRTC tok podataka. Monolitna aplikacija ...
author2 Gotovac, Sven
format Master Thesis
author Kovačević-Vranjican, Marin
author_facet Kovačević-Vranjican, Marin
author_sort Kovačević-Vranjican, Marin
title Super-rezolucija zvučnog signala metodama strojnog učenja
title_short Super-rezolucija zvučnog signala metodama strojnog učenja
title_full Super-rezolucija zvučnog signala metodama strojnog učenja
title_fullStr Super-rezolucija zvučnog signala metodama strojnog učenja
title_full_unstemmed Super-rezolucija zvučnog signala metodama strojnog učenja
title_sort super-rezolucija zvučnog signala metodama strojnog učenja
publisher Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo.
publishDate 2022
url https://repozitorij.svkst.unist.hr/islandora/object/fesb:932
https://urn.nsk.hr/urn:nbn:hr:179:723564
https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF
genre sami
genre_facet sami
op_relation https://repozitorij.svkst.unist.hr/islandora/object/fesb:932
https://urn.nsk.hr/urn:nbn:hr:179:723564
https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF
op_rights http://rightsstatements.org/vocab/InC/1.0/
info:eu-repo/semantics/restrictedAccess
_version_ 1810475382926737408