Proportional Odds Models with High‐Dimensional Data Structure
Faisal Maqbool Zahid and
Gerhard Tutz
International Statistical Review, 2013, vol. 81, issue 3, 388-406
Abstract:
The proportional odds model is the most widely used model when the response has ordered categories. In the case of high‐dimensional predictor structure, the common maximum likelihood approach typically fails when all predictors are included. A boosting technique pomBoost is proposed to fit the model by implicitly selecting the influential predictors. The approach distinguishes between metric and categorical predictors. In the case of categorical predictors, where each predictor relates to a set of parameters, the objective is to select simultaneously all the associated parameters. In addition, the approach distinguishes between nominal and ordinal predictors. In the case of ordinal predictors, the proposed technique uses the ordering of the ordinal predictors by penalizing the difference between the parameters of adjacent categories. The technique has also a provision to consider some mandatory predictors (if any) that must be part of the final sparse model. The performance of the proposed boosting algorithm is evaluated in a simulation study and applications with respect to mean squared error and prediction error. Hit rates and false alarm rates are used to judge the performance of pomBoost for selection of the relevant predictors. Le modèle des odds proportionnels (rapports des chances proportionnels) est le modèle le plus couramment utilisé dans l'analyse de réponses de type ordinal. En présence d'un grand nombre de covariables possibles, l'approche par maximum de vraisemblance usuelle est typiquement mise en échec si toutes les covariables sont prises en compte. Une méthode de type boosting, pomBoost, est proposée, par laquelle le modèle est estimé via une sélection implicite des prédicteurs les plus pertinentes. Cette approche fait la distinction entre variables métriques et catégorielles. Dans le cas de variables catégorielles, l'objectif est une sélection simultanée d'un ensemble de prédicteurs. La méthode fait la distinction, de surcroït, entre variables nominales et ordinales. Dans ce dernier cas, la relation d'ordre intervient dans le calcul de la pénalisation. La méthode permet également d'imposer la présence de certaines covariables dans le modèle final. Les performances de l'algorithme de boosting sont évaluées, du point de vue de l'erreur quadratique moyenne et de l'erreur de prédiction, au moyen d'une étude de simulation et d'applications à des données empiriques. Les taux de succès et de fausse alarme sont considérés pour l'évaluation des performances de pomBoost dans la sélection des prédicteurs.
Date: 2013
References: View references in EconPapers View complete reference list from CitEc
Citations: View citations in EconPapers (1)
Downloads: (external link)
https://doi.org/10.1111/insr.12032
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:bla:istatr:v:81:y:2013:i:3:p:388-406
Ordering information: This journal article can be ordered from
http://www.blackwell ... bs.asp?ref=0306-7734
Access Statistics for this article
International Statistical Review is currently edited by Eugene Seneta and Kees Zeelenberg
More articles in International Statistical Review from International Statistical Institute Contact information at EDIRC.
Bibliographic data for series maintained by Wiley Content Delivery ().