Super-rezolucija zvučnog signala metodama strojnog učenja

Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 u...

Full description

Bibliographic Details
Main Author: Kovačević-Vranjican, Marin
Other Authors: Gotovac, Sven
Format: Master Thesis
Language:Croatian
Published: Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo. 2022
Subjects:
Online Access:https://repozitorij.svkst.unist.hr/islandora/object/fesb:932
https://urn.nsk.hr/urn:nbn:hr:179:723564
https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF
_version_ 1821701075901612032
author Kovačević-Vranjican, Marin
author2 Gotovac, Sven
author_facet Kovačević-Vranjican, Marin
author_sort Kovačević-Vranjican, Marin
collection The University of Split Repository
description Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 uzastopne inačice gdje zadnja ima najbolje performanse. Prvi model, onaj od kojeg druga dva potiču, temelji se na modelu U-mreže sa rezidualnim vezama. Takva se arhitektura primjenjuje ne samo kod njegovih nasljednika, već i kod nepovezanih modela. Iduća inačica uvodi TFiLM sloj temeljen na LSTM mreži s ciljem da se u skrivenom stanju modela sadrži kontekst proteklog dijela sekvence podataka. To se znanje primijenjuje na daljnju generaciju podataka. Završna inačica TFiLM slojeve mijenja AFiLM slojevima. AFiLM slojevi koriste mehanizam transformatora koji je u novije vrijeme stekao veliku popularnost kod generativnih zadataka. Ova inačica postiže bolje rezultate, a uz to se i brže izvršava jer je pogodnija za paralelnu obradu podataka. Preostali modeli su NU-Wave temeljen na difuzijskom probabilističkom modelu za otklanjanje šuma, metodi čija je vrijednost dokazana kod super-rezolucije slika, i NVSR temeljen na super-rezoluciji u dva koraka: iz mel-spektrograma niske rezolucije u mel-spektrogram više rezolucije i iz mel-spektrograma više rezolucije u valni oblik visoke, to jest ciljne rezolucije. Iako se NVSR pokazao kao model s uvjerljivo najboljim performansama i fleksibilnosti, za potrebe ovog rada zbog pristupačnije implementacije odabrana je U-mreža s AFiLM slojevima. Za sami tok medijskih podataka odabran je WebRTC protokol. Taj je protokol dizajniran za performanse, a to postiže izravnom komunikacijom između klijenata. Da bi osigurao vezu izmedu klijenata, oslanja se na ICE protokol koji pronalazi najbolji put kroz mrežu od jednog klijenta do drugog. Implementirane su dvije aplikacije, monolitna i višeslojna, koje prikazuju primjenu odabranog super-rezolucijskog modela na WebRTC tok podataka. Monolitna aplikacija ...
format Master Thesis
genre sami
genre_facet sami
id ftunivsplit:oai:repozitorij.svkst.unist.hr:fesb_932
institution Open Polar
language Croatian
op_collection_id ftunivsplit
op_relation https://repozitorij.svkst.unist.hr/islandora/object/fesb:932
https://urn.nsk.hr/urn:nbn:hr:179:723564
https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF
op_rights http://rightsstatements.org/vocab/InC/1.0/
info:eu-repo/semantics/restrictedAccess
publishDate 2022
publisher Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo.
record_format openpolar
spelling ftunivsplit:oai:repozitorij.svkst.unist.hr:fesb_932 2025-01-17T00:38:39+00:00 Super-rezolucija zvučnog signala metodama strojnog učenja Super-resolution of sound signal using machine learning methods Kovačević-Vranjican, Marin Gotovac, Sven 2022-09-23 application/pdf https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF hrv hrv Sveučilište u Splitu. Fakultet elektrotehnike, strojarstva i brodogradnje. Zavod za elektroniku i računarstvo. University of Split. Faculty of Electrical Engineering, Mechanical Engineering and Naval Architecture. Department of Electronics and Computing. https://repozitorij.svkst.unist.hr/islandora/object/fesb:932 https://urn.nsk.hr/urn:nbn:hr:179:723564 https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF http://rightsstatements.org/vocab/InC/1.0/ info:eu-repo/semantics/restrictedAccess super-rezolucija zvuka strojno učenje WebRTC JavaScript Python TensorFlow audio super-resolution machine learning TEHNIČKE ZNANOSTI. Računarstvo TECHNICAL SCIENCES. Computing info:eu-repo/semantics/masterThesis text 2022 ftunivsplit 2024-11-18T01:30:15Z Cilj ovog rada je istražiti modele strojnog učenja razvijene za super-rezoluciju govora i osmisliti način njihove primjene na zvučni signal u realnom vremenu, to jest sa što manjim kašnjenjem. Izrađena su dva ogledna primjera aplikacija koji to postižu. Istražene su značajke 5 modela od kojih su 3 uzastopne inačice gdje zadnja ima najbolje performanse. Prvi model, onaj od kojeg druga dva potiču, temelji se na modelu U-mreže sa rezidualnim vezama. Takva se arhitektura primjenjuje ne samo kod njegovih nasljednika, već i kod nepovezanih modela. Iduća inačica uvodi TFiLM sloj temeljen na LSTM mreži s ciljem da se u skrivenom stanju modela sadrži kontekst proteklog dijela sekvence podataka. To se znanje primijenjuje na daljnju generaciju podataka. Završna inačica TFiLM slojeve mijenja AFiLM slojevima. AFiLM slojevi koriste mehanizam transformatora koji je u novije vrijeme stekao veliku popularnost kod generativnih zadataka. Ova inačica postiže bolje rezultate, a uz to se i brže izvršava jer je pogodnija za paralelnu obradu podataka. Preostali modeli su NU-Wave temeljen na difuzijskom probabilističkom modelu za otklanjanje šuma, metodi čija je vrijednost dokazana kod super-rezolucije slika, i NVSR temeljen na super-rezoluciji u dva koraka: iz mel-spektrograma niske rezolucije u mel-spektrogram više rezolucije i iz mel-spektrograma više rezolucije u valni oblik visoke, to jest ciljne rezolucije. Iako se NVSR pokazao kao model s uvjerljivo najboljim performansama i fleksibilnosti, za potrebe ovog rada zbog pristupačnije implementacije odabrana je U-mreža s AFiLM slojevima. Za sami tok medijskih podataka odabran je WebRTC protokol. Taj je protokol dizajniran za performanse, a to postiže izravnom komunikacijom između klijenata. Da bi osigurao vezu izmedu klijenata, oslanja se na ICE protokol koji pronalazi najbolji put kroz mrežu od jednog klijenta do drugog. Implementirane su dvije aplikacije, monolitna i višeslojna, koje prikazuju primjenu odabranog super-rezolucijskog modela na WebRTC tok podataka. Monolitna aplikacija ... Master Thesis sami The University of Split Repository
spellingShingle super-rezolucija zvuka
strojno učenje
WebRTC
JavaScript
Python
TensorFlow
audio super-resolution
machine learning
TEHNIČKE ZNANOSTI. Računarstvo
TECHNICAL SCIENCES. Computing
Kovačević-Vranjican, Marin
Super-rezolucija zvučnog signala metodama strojnog učenja
title Super-rezolucija zvučnog signala metodama strojnog učenja
title_full Super-rezolucija zvučnog signala metodama strojnog učenja
title_fullStr Super-rezolucija zvučnog signala metodama strojnog učenja
title_full_unstemmed Super-rezolucija zvučnog signala metodama strojnog učenja
title_short Super-rezolucija zvučnog signala metodama strojnog učenja
title_sort super-rezolucija zvučnog signala metodama strojnog učenja
topic super-rezolucija zvuka
strojno učenje
WebRTC
JavaScript
Python
TensorFlow
audio super-resolution
machine learning
TEHNIČKE ZNANOSTI. Računarstvo
TECHNICAL SCIENCES. Computing
topic_facet super-rezolucija zvuka
strojno učenje
WebRTC
JavaScript
Python
TensorFlow
audio super-resolution
machine learning
TEHNIČKE ZNANOSTI. Računarstvo
TECHNICAL SCIENCES. Computing
url https://repozitorij.svkst.unist.hr/islandora/object/fesb:932
https://urn.nsk.hr/urn:nbn:hr:179:723564
https://repozitorij.svkst.unist.hr/islandora/object/fesb:932/datastream/PDF