Disertační práce se zabývá problémem úplné automatické hudební transkripce. Úplná automatická hudební transkripce, tj. detekce (i) všech zvuků v čase, (ii) nástrojů jejich reprodukce a (iii) jejich hlasitostí, je složitý a v některých případech dokonce teoreticky neřešitelný problém. I když zmíněné tři charakteristiky hudebního obsahu nesou úplnou informaci k reprodukování skladby, někdy tvoří jen data pro další zpracování, např. pro získání tempa skladby jako další charakteristiky hudebního obsahu. Proto se úplná hudební transkripce omezuje na scénář -- záměr -- v rámci kterého usiluje o zachycení všech charakteristik. V této práci definujeme inverzní hudební sekvencer jako tento scénář. Mono-audio hudební signál a knihovna (banka zvuků) tvoří vstupní data inverzního hudebního sekvenceru. V knihovně mohou být nahrávky harmonických zvuků (piano, flétna, ...), zvuky bicích nástrojů, případně celé nahrávky jimi tvořené. Navrhujeme pravděpodobnostní model, jehož odhadované proměnné nesou informaci o parametrech zkrácení knihovních zvuků hledaných ve vstupním hudebním signálu, jejich rozmístění v čase a jejich amplitudách. Detekce podčástí knihovních zvuků je vlastnost, kterou detekujeme jen ve scénáři našeho inverzního hudebního sekvenceru, jiné postupy pracují se zvukem jako s celkem. Pro výpočet neznámých proměnných je aplikována variační Bayesovská technika. Zavádíme metody vyhodnocování pro scénář inverzního hudebního sekvenceru. V části ''Experimenty'' provádíme citlivostní analýzu v závislosti na vstupním hudebním signálu, knihovně zvuků, volných parametrech modelu a různých modifikacích transkripčního algoritmu. Jedna knihovna zvuků v našich experimentech obsahuje pouze zvuky -- tóny jednoho harmonického hudebního nástroje, a tak rozpoznávání hudebních nástrojů není součástí testů, i když navržené transkripční algoritmy jsou vhodné i pro něj.
Anotace v angličtině
The problem of memory based complete automatic music transcription is considered. The complete automatic music transcription, i.e., estimation of (i) all sounds in time, (ii) their instrumentation and (iii) their loudnesses, is a dicult and in some cases even not solvable problem. Even though the three named music content features carry the entire information for the original music signal composition, they can represent observed data for further processing, e.g., of the music piece tempo as another music content feature. Therefore the practical complete automatic music transcription follows a scenario an intention and tries to capture all the features within the scenario. In this work, the inverse music sequencer as a specic scenario for the complete automatic music transcription is dened. A monoaural music signal and the library of sounds as an input of the inverse music sequencer is considered. The sounds in the library are to be composed of harmonic sounds (a piano, a flute, ...) and drum sounds. A probabilistic model containing unobserved variables which reect information of truncation parameters of library sounds sought in the observed signal their displacements in time and their amplitudes is designed. The detection of subparts of the library sounds is a distinct feature of our approach in comparison to other approaches that consider only full sequences of frames. Variational Bayes method to calculate equations of estimates of the unobserved variables is applied. Evaluation methods for the specic intention of the inverse music sequencer are introduced. In the experimental part, the sensitivity analysis respecting an observed music signal, library of sounds, nuisance parameters and various modications of the transcription algorithm is carried out. In experiments, one sound library contains harmonic sounds of one music instrument, thus music instrument recognition is not a part of our experiments although the proposed transcription algorithms are developed for this too.
Klíčová slova
metoda variační Bayes, variační Bayesovská technika, variační Bayes, Bayesovské modelování, Bayesovský model, pravděpodobnostní model, automatický přepis hudby, automatická hudební transkripce, úplná automatická hudební transkripce, model hudeního signálu, audio na midi
Klíčová slova v angličtině
variational Bayes, variational Bayes method, Bayesian model, probabilistic model, music signal model, automatic music transcription, memory-based automatic music transription, complete automatic music transription, entire automatic music transription, audio to midi
Rozsah průvodní práce
110 s.
Jazyk
AN
Anotace
Disertační práce se zabývá problémem úplné automatické hudební transkripce. Úplná automatická hudební transkripce, tj. detekce (i) všech zvuků v čase, (ii) nástrojů jejich reprodukce a (iii) jejich hlasitostí, je složitý a v některých případech dokonce teoreticky neřešitelný problém. I když zmíněné tři charakteristiky hudebního obsahu nesou úplnou informaci k reprodukování skladby, někdy tvoří jen data pro další zpracování, např. pro získání tempa skladby jako další charakteristiky hudebního obsahu. Proto se úplná hudební transkripce omezuje na scénář -- záměr -- v rámci kterého usiluje o zachycení všech charakteristik. V této práci definujeme inverzní hudební sekvencer jako tento scénář. Mono-audio hudební signál a knihovna (banka zvuků) tvoří vstupní data inverzního hudebního sekvenceru. V knihovně mohou být nahrávky harmonických zvuků (piano, flétna, ...), zvuky bicích nástrojů, případně celé nahrávky jimi tvořené. Navrhujeme pravděpodobnostní model, jehož odhadované proměnné nesou informaci o parametrech zkrácení knihovních zvuků hledaných ve vstupním hudebním signálu, jejich rozmístění v čase a jejich amplitudách. Detekce podčástí knihovních zvuků je vlastnost, kterou detekujeme jen ve scénáři našeho inverzního hudebního sekvenceru, jiné postupy pracují se zvukem jako s celkem. Pro výpočet neznámých proměnných je aplikována variační Bayesovská technika. Zavádíme metody vyhodnocování pro scénář inverzního hudebního sekvenceru. V části ''Experimenty'' provádíme citlivostní analýzu v závislosti na vstupním hudebním signálu, knihovně zvuků, volných parametrech modelu a různých modifikacích transkripčního algoritmu. Jedna knihovna zvuků v našich experimentech obsahuje pouze zvuky -- tóny jednoho harmonického hudebního nástroje, a tak rozpoznávání hudebních nástrojů není součástí testů, i když navržené transkripční algoritmy jsou vhodné i pro něj.
Anotace v angličtině
The problem of memory based complete automatic music transcription is considered. The complete automatic music transcription, i.e., estimation of (i) all sounds in time, (ii) their instrumentation and (iii) their loudnesses, is a dicult and in some cases even not solvable problem. Even though the three named music content features carry the entire information for the original music signal composition, they can represent observed data for further processing, e.g., of the music piece tempo as another music content feature. Therefore the practical complete automatic music transcription follows a scenario an intention and tries to capture all the features within the scenario. In this work, the inverse music sequencer as a specic scenario for the complete automatic music transcription is dened. A monoaural music signal and the library of sounds as an input of the inverse music sequencer is considered. The sounds in the library are to be composed of harmonic sounds (a piano, a flute, ...) and drum sounds. A probabilistic model containing unobserved variables which reect information of truncation parameters of library sounds sought in the observed signal their displacements in time and their amplitudes is designed. The detection of subparts of the library sounds is a distinct feature of our approach in comparison to other approaches that consider only full sequences of frames. Variational Bayes method to calculate equations of estimates of the unobserved variables is applied. Evaluation methods for the specic intention of the inverse music sequencer are introduced. In the experimental part, the sensitivity analysis respecting an observed music signal, library of sounds, nuisance parameters and various modications of the transcription algorithm is carried out. In experiments, one sound library contains harmonic sounds of one music instrument, thus music instrument recognition is not a part of our experiments although the proposed transcription algorithms are developed for this too.
Klíčová slova
metoda variační Bayes, variační Bayesovská technika, variační Bayes, Bayesovské modelování, Bayesovský model, pravděpodobnostní model, automatický přepis hudby, automatická hudební transkripce, úplná automatická hudební transkripce, model hudeního signálu, audio na midi
Klíčová slova v angličtině
variational Bayes, variational Bayes method, Bayesian model, probabilistic model, music signal model, automatic music transcription, memory-based automatic music transription, complete automatic music transription, entire automatic music transription, audio to midi