Identifikační kód |
RIV/67985556:_____/19:00517875 |
Název v anglickém jazyce |
Second Order Optimality in Markov and Semi-Markov Decision Processes |
Druh |
D - Stať ve sborníku |
Jazyk |
eng - angličtina |
Vědní obor |
10103 - Statistics and probability |
Rok uplatnění |
2019 |
Kód důvěrnosti údajů |
S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku |
2 |
Počet tvůrců celkem |
1 |
Počet domácích tvůrců |
1 |
Výčet všech uvedených jednotlivých tvůrců |
Karel Sladký (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6105955, researcherid: G-9534-2014) |
Popis výsledku v anglickém jazyce |
Semi-Markov decision processes can be considered as an extension of discrete- and continuous-time Markov reward models. Unfortunately, traditional optimality criteria as long-run average reward per time may be quite insufficient to characterize the problem from the point of a decision maker. To this end it may be preferable if not necessary to select more sophisticated criteria that also reflect variability-risk features of the problem. Perhaps the best known approaches stem from the classical work of Markowitz on mean-variance selection rules, i.e. we optimize the weighted sum of average or total reward and its variance. Such approach has been already studied for very special classes of semi-Markov decision processes, in particular, for Markov decision processes in discrete - and continuous-time setting. In this note these approaches are summarized and possible extensions to the wider class of semi-Markov decision processes is discussed. Attention is mostly restricted to uncontrolled models in which the chain is aperiodic and contains a single class of recurrent states. Considering finite time horizons, explicit formulas for the first and second moments of total reward as well as for the corresponding variance are produced. |
Klíčová slova oddělená středníkem |
semi-Markov processes with rewards;discrete and continuous-time Markov reward chains;risk-sensitive optimality;average reward and variance over time |
Stránka www, na které se nachází výsledek |
- |
Odkaz na údaje z výzkumu |
- |