Relative Efficiency of the Fuzzy p‐Value Approach to Hypothesis Testing
Anthony Y. C. Kuk and
Jinfeng Xu
International Statistical Review, 2009, vol. 77, issue 3, 395-404
Abstract:
In missing data problems, it is often the case that there is a natural test statistic for testing a statistical hypothesis had all the data been observed. A fuzzy p‐value approach to hypothesis testing has recently been proposed which is implemented by imputing the missing values in the “complete data” test statistic by values simulated from the conditional null distribution given the observed data. We argue that imputing data in this way will inevitably lead to loss in power. For the case of scalar parameter, we show that the asymptotic efficiency of the score test based on the imputed “complete data” relative to the score test based on the observed data is given by the ratio of the observed data information to the complete data information. Three examples involving probit regression, normal random effects model, and unidentified paired data are used for illustration. For testing linkage disequilibrium based on pooled genotype data, simulation results show that the imputed Neyman Pearson and Fisher exact tests are less powerful than a Wald‐type test based on the observed data maximum likelihood estimator. In conclusion, we caution against the routine use of the fuzzy p‐value approach in latent variable or missing data problems and suggest some viable alternatives. Dans les problèmes de données manquantes, il existe souvent une statistique de test qui serait naturelle pour le problème de test considéré si toutes les données étaient disponibles. Une approche du type «p‐valeur floue» a récemment été proposée pour cette situation. Dans cette approche, les valeurs manquantes sont remplacées, dans la statistique de test, par des valeurs simulées à partir de la distribution nulle de celle‐ci conditionnellement aux données observées. L’inconvénient d’une telle imputation est qu’elle conduit inévitablement à des pertes de puissance. Pour le cas d’un paramètre scalaire, nous montrons que l’efficacité asymptotique du test du score fondé sur les «données complétées par imputation» relativement au test du score fondé sur les seules données observées est donnée par le rapport de l’information relative aux données observées et de l’information relative aux données complètes. Trois exemples incluant la régression probit, le modèle à effets aléatoires gaussien et des données appariées non identifiables sont utilisés comme illustration. Pour tester la présence d’un déséquilibre de liaison à partir d’un ensemble de données de génotypage groupées, les résultats de simulation montrent que les tests de Neyman, Pearson et Fisher imputés exacts sont moins puissants qu’un test de type Wald basé sur l’estimateur du maximum de vraisemblance des données observées. En conclusion, nous mettons en garde contre l’usage routinier de l’approche «p‐valeur floue» dans les problèmes à variables latentes ou données manquantes, et suggérons des solutions de rechange approriées.
Date: 2009
References: View complete reference list from CitEc
Citations:
Downloads: (external link)
https://doi.org/10.1111/j.1751-5823.2009.00082.x
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:bla:istatr:v:77:y:2009:i:3:p:395-404
Ordering information: This journal article can be ordered from
http://www.blackwell ... bs.asp?ref=0306-7734
Access Statistics for this article
International Statistical Review is currently edited by Eugene Seneta and Kees Zeelenberg
More articles in International Statistical Review from International Statistical Institute Contact information at EDIRC.
Bibliographic data for series maintained by Wiley Content Delivery ().