banner

Blog

Nov 10, 2023

Modelli statistici versus machine learning per rischi concorrenti: sviluppo e validazione di modelli prognostici

BMC Medical Research Methodology volume 23, numero articolo: 51 (2023) Citare questo articolo

1353 accessi

9 Altmetrico

Dettagli sulle metriche

Nella ricerca sanitaria, diverse malattie croniche sono suscettibili di rischi concorrenti (CR). Inizialmente, sono stati sviluppati modelli statistici (SM) per stimare l'incidenza cumulativa di un evento in presenza di CR. Poiché recentemente c'è un crescente interesse nell'applicazione dell'apprendimento automatico (ML) per la previsione clinica, queste tecniche sono state estese anche ai modelli CR, ma la letteratura è limitata. Qui, il nostro obiettivo è quello di indagare il ruolo potenziale di ML rispetto a SM per CR all'interno di dati non complessi (dimensione del campione piccola/media, impostazione dimensionale bassa).

Un set di dati con 3826 pazienti raccolti retrospettivamente con sarcoma dei tessuti molli delle estremità (eSTS) e nove predittori viene utilizzato per valutare le prestazioni predittive del modello in termini di discriminazione e calibrazione. Due tecniche SM (Cox causa-specifica, Fine-Gray) e tre tecniche ML vengono confrontate per le CR in un contesto clinico semplice. I modelli ML includono una rete neurale artificiale logistica parziale originale per CR (PLANNCR originale), un PLANNCR con nuove specifiche in termini di architettura (PLANNCR esteso) e una foresta di sopravvivenza casuale per CR (RSFCR). L'endpoint clinico è il tempo in anni tra l'intervento chirurgico e la progressione della malattia (evento di interesse) o la morte (evento competitivo). I punti temporali di interesse sono 2, 5 e 10 anni.

Sulla base dei dati eSTS originali, vengono disegnati 100 set di dati di addestramento bootstrap. Le prestazioni dei modelli finali vengono valutate sui dati di validazione (campioni esclusi) utilizzando come misure il punteggio Brier e l'area sotto la curva (AUC) con CR. Viene stimata anche l'errata calibrazione (errore di precisione assoluta). I risultati mostrano che i modelli ML sono in grado di raggiungere prestazioni comparabili rispetto al modello SM a 2, 5 e 10 anni sia per quanto riguarda il punteggio Brier che l’AUC (intervalli di confidenza al 95% sovrapposti). Tuttavia, gli SM sono spesso meglio calibrati.

Nel complesso, le tecniche ML sono meno pratiche in quanto richiedono tempi di implementazione sostanziali (preelaborazione dei dati, ottimizzazione degli iperparametri, intensità computazionale), mentre i metodi di regressione possono funzionare bene senza il carico di lavoro aggiuntivo dell'addestramento del modello. Pertanto, per i dati di sopravvivenza nella vita reale non complessi, queste tecniche dovrebbero essere applicate solo in modo complementare alla SM come strumenti esplorativi delle prestazioni del modello. È urgentemente necessaria maggiore attenzione alla calibrazione del modello.

Rapporti di revisione tra pari

L'analisi di sopravvivenza (nota anche come analisi time-to-event) viene utilizzata per stimare la durata della vita di una particolare popolazione oggetto di studio. Spesso i dati sulla sopravvivenza vengono censurati; il tempo necessario all'evento non è stato rispettato per tutti i pazienti a causa dell'interruzione del follow-up prima che si verificasse l'evento di interesse o per limiti di tempo (fine dello studio). I rischi concorrenti (CR) si verificano frequentemente nelle applicazioni cliniche dei dati di sopravvivenza [1,2,3,4]. In questo tipo di dati un individuo può fallire per una delle diverse cause. Una CR è un evento il cui verificarsi preclude il verificarsi di un evento di interesse (ad esempio la morte può precludere il verificarsi di una ricaduta della malattia) [5, 6]. Nella ricerca sanitaria, è improbabile che i CR siano indipendenti poiché la biologia suggerisce almeno una certa dipendenza tra gli eventi. In diverse malattie croniche attribuibili all’invecchiamento e alla fragilità come il cancro, l’insufficienza cardiaca cronica o la demenza, le popolazioni in studio sono suscettibili alle CR [7].

L'approccio non parametrico più popolare per stimare la sopravvivenza in presenza di dati time-to-event censurati è la metodologia di Kaplan-Meier (KM) [8]. Tuttavia, in presenza di CR, questa metodologia sovrastima la probabilità di fallimento che potrebbe portare a un trattamento eccessivo dei pazienti [1, 5, 9]. Sono stati sviluppati diversi modelli statistici (SM) per stimare l’incidenza cumulativa (rischio assoluto) di un evento in presenza di CR, come il modello di Cox causa-specifica [10] e il modello di regressione dei rischi con sottodistribuzione Fine-Gray [ 11]. Il primo è un'estensione naturale del modello di Cox dei rischi proporzionali standard per l'impostazione CR in cui viene applicato un modello di Cox per ciascun pericolo causa-specifico. Quest'ultimo modella l'effetto delle covariate direttamente sulla funzione di incidenza cumulativa (CIF) nel tempo riportando l'hazard ratio della sottodistribuzione [9].

A common approach in the literature is the partial logistic artificial neural network (PLANN) of Biganzoli et al. (1998) [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e784"18]. For the purpose of implementation, time is specified in discrete non-overlapping time intervals which are added as an input feature in a longitudinally transformed feed-forward network with logistic activation, and entropy error function. The output layer estimates smoothed discrete hazards for each time interval. PLANN was extended by Lisboa et al. (2003) under a Bayesian regularisation framework which performs automatic relevance determination (PLANN-ARD) [19]. Recently, Kantidakis et al. in 2020 proposed extensions of PLANN in terms of architecture i.e., new hyperparameters, new activation functions, and time interval specification as multiple input features [20]. Next to survival neural networks (SNNs), another well-known ML technique for clinical prediction of survival data is random survival forests (RSF, Ishwaran et al. 2008) [21]. RSF adapt Breiman's random forest method by using a collection of survival trees [22]./p>

In 2006, Biganzoli et al. extended the partial logistic artificial neural network to competing risks (PLANNCR) for the joint modelling of discrete cause-specific hazards [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e2646"18, 23]. PLANNCR is a feed-forward network comprised of a group of units called nodes (or neurons) in each layer. It has an input layer that picks up the signals and passes them to a single hidden layer after the application of an activation (also called transformation) function. An activation function modulates the degree of non-linearity transferred from the input features to the hidden layer. Connections between the artificial neurons of different layers are called edges - each having a weight. Weights are adjusted through training increasing or decreasing the strength of each connection [35]. Signals are transmitted towards the output layer, which provides a smoothed estimation of discrete conditional event probabilities (in multiple output nodes; each for an event), with another activation function./p>

This expression can be expanded based on Graaf et al. 1999 [3.0.CO;2-5 ." href="/articles/10.1186/s12874-023-01866-z#ref-CR41" id="ref-link-section-d54317150e5094"41] taking the following form/p>s \}\) the information at time s used to compute the prediction of \(\pi (s, t)\). The first term in (12) measures calibration - how close the predictions are to \(\mathbb{E} [\Delta (s, t) | H(s)]\), the "true" underlying risk of event in \((s, s+t]\) given H(s). In addition, the second term depends on the discrimination ability of H(s). Thus, Brier score is a measure of both calibration and discrimination. Typically, it ranges from 0 to 0.25 (lower values mean smaller prediction error)./p>

Biganzoli E, Boracchi P, Mariani L, Marubini E. Feed forward neural networks for the analysis of censored survival data: a partial logistic regression approach. Stat Med. 1998;17(10):1169–86. 3.0.CO;2-D"https://doi.org/10.1002/(SICI)1097-0258(19980530)17:10<1169::AID-SIM796>3.0.CO;2-D./p>

Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999;18(17-18):2529–2545. http://www.ncbi.nlm.nih.gov/pubmed/10474158. 3.0.CO;2-5"https://doi.org/10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5./p>

CONDIVIDERE