Scholars@Duke publication: Efficient posterior sampling for high-dimensional imbalanced logistic regression.

Efficient posterior sampling for high-dimensional imbalanced logistic regression.

Publication , Journal Article

Sen, D; Sachs, M; Lu, J; Dunson, DB

Published in: Biometrika

December 2020

Classification with high-dimensional data is of widespread interest and often involves dealing with imbalanced data. Bayesian classification approaches are hampered by the fact that current Markov chain Monte Carlo algorithms for posterior computation become inefficient as the number [Formula: see text] of predictors or the number [Formula: see text] of subjects to classify gets large, because of the increasing computational time per step and worsening mixing rates. One strategy is to employ a gradient-based sampler to improve mixing while using data subsamples to reduce the per-step computational complexity. However, the usual subsampling breaks down when applied to imbalanced data. Instead, we generalize piecewise-deterministic Markov chain Monte Carlo algorithms to include importance-weighted and mini-batch subsampling. These maintain the correct stationary distribution with arbitrarily small subsamples and substantially outperform current competitors. We provide theoretical support for the proposed approach and demonstrate its performance gains in simulated data examples and an application to cancer data.

Duke Scholars

Author Jianfeng Lu Mathematics

Author David B. Dunson Statistical Science

Published In

Biometrika

DOI

10.1093/biomet/asaa035

EISSN

1464-3510

ISSN

0006-3444

Publication Date

December 2020

Volume

107

Issue

Start / End Page

1005 / 1012

Related Subject Headings

Statistics & Probability
4905 Statistics
3802 Econometrics
1403 Econometrics
0104 Statistics
0103 Numerical and Computational Mathematics

Citation

APA

Chicago

ICMJE

MLA

NLM

Sen, D., Sachs, M., Lu, J., & Dunson, D. B. (2020). Efficient posterior sampling for high-dimensional imbalanced logistic regression. Biometrika, 107(4), 1005–1012. https://doi.org/10.1093/biomet/asaa035

Sen, Deborshee, Matthias Sachs, Jianfeng Lu, and David B. Dunson. “Efficient posterior sampling for high-dimensional imbalanced logistic regression.” Biometrika 107, no. 4 (December 2020): 1005–12. https://doi.org/10.1093/biomet/asaa035.

Sen D, Sachs M, Lu J, Dunson DB. Efficient posterior sampling for high-dimensional imbalanced logistic regression. Biometrika. 2020 Dec;107(4):1005–12.

Sen, Deborshee, et al. “Efficient posterior sampling for high-dimensional imbalanced logistic regression.” Biometrika, vol. 107, no. 4, Dec. 2020, pp. 1005–12. Epmc, doi:10.1093/biomet/asaa035.

Sen D, Sachs M, Lu J, Dunson DB. Efficient posterior sampling for high-dimensional imbalanced logistic regression. Biometrika. 2020 Dec;107(4):1005–1012.

Published In

Biometrika

DOI

10.1093/biomet/asaa035

EISSN

1464-3510

ISSN

0006-3444

Publication Date

December 2020

Volume

107

Issue

Start / End Page

1005 / 1012

Related Subject Headings

Statistics & Probability
4905 Statistics
3802 Econometrics
1403 Econometrics
0104 Statistics
0103 Numerical and Computational Mathematics