U Modellu di Lingua Grande (LLM) pò scrive articuli persuasivi basati nantu à parolle prompte, passà esami di cumpetenza prufessiunale è scrive informazioni amichevuli per i pazienti è empatiche. Tuttavia, in più di i risichi ben cunnisciuti di finzione, fragilità è fatti imprecisi in LLM, altri prublemi irrisolti stanu diventendu gradualmente u centru di l'attenzione, cum'è i mudelli di IA chì cuntenenu "valori umani" potenzialmente discriminatori in a so creazione è usu, è ancu s'ellu LLM ùn fabrica più cuntenutu è elimina risultati di output chiaramente dannosi, i "valori LLM" ponu ancu deviare da i valori umani.
Innumerevuli esempi illustranu cumu i dati aduprati per furmà i mudelli di IA codificanu valori individuali è suciali, chì ponu solidificà si in u mudellu. Quessi esempi implicanu una gamma di applicazioni, cumprese l'interpretazione automatica di e radiografie di u torace, a classificazione di e malatie di a pelle è a presa di decisioni algoritmiche riguardu à l'allocazione di risorse mediche. Cum'è dichjaratu in un articulu recente in a nostra rivista, i dati di furmazione tendenziosi ponu amplificà è rivelà i valori è i pregiudizii presenti in a sucietà. À u cuntrariu, a ricerca hà ancu dimustratu chì l'IA pò esse aduprata per riduce i pregiudizii. Per esempiu, i circadori anu applicatu mudelli di apprendimentu prufondu à e radiografie di u ghjinochju è anu scupertu fattori chì sò stati mancati da l'indicatori di gravità standard (classificati da i radiologi) in l'articulazione di u ghjinochju, riducendu cusì e differenze di dolore inspiegabili trà i pazienti neri è bianchi.
Ancu s'è sempre più persone si rendenu contu di u pregiudiziu in i mudelli di IA, in particulare in termini di dati di furmazione, parechji altri punti d'entrata di i valori umani ùn sò micca dati abbastanza attenzione in u prucessu di sviluppu è di implementazione di i mudelli di IA. L'IA medica hà recentemente ottenutu risultati impressiunanti, ma in larga misura, ùn hà micca cunsideratu esplicitamente i valori umani è a so interazione cù a valutazione di u risicu è u ragiunamentu probabilisticu, nè hè stata modellata.
Per concretizà sti cuncetti astratti, imaginate chì site un endocrinologu chì deve prescrive l'ormone di crescita umana ricombinante per un zitellu di 8 anni chì hè sottu à u 3u percentile di a so età. U livellu di l'ormone di crescita umana stimulatu di u zitellu hè sottu à 2 ng/mL (valore di riferimentu, > 10 ng/mL, valore di riferimentu per parechji paesi fora di i Stati Uniti hè > 7 ng/mL), è u so genu codificante di l'ormone di crescita umana hà rilevatu mutazioni rare di inattivazione. Credemu chì l'applicazione di a terapia cù l'ormone di crescita umana hè evidente è indiscutibile in questu cuntestu clinicu.
L'applicazione di a terapia cù l'ormone di crescita umana in i seguenti scenarii pò causà cuntruversia: l'altezza di un zitellu di 14 anni hè sempre stata in u 10u percentile di i so pari, è u piccu di l'ormone di crescita umana dopu a stimulazione hè di 8 ng/mL. Ùn ci sò micca mutazioni funziunali cunnisciute chì ponu influenzà l'altezza, nè altre cause cunnisciute di bassa statura, è a so età ossea hè di 15 anni (vale à dì senza ritardu di sviluppu). Solu una parte di a cuntruversia hè dovuta à e differenze in i valori di soglia determinati da esperti basati annantu à decine di studii riguardu à i livelli di l'ormone di crescita umana utilizati per diagnosticà a carenza isolata di l'ormone di crescita. Almenu tanta cuntruversia deriva da u bilanciu risicu-beneficiu di l'usu di a terapia cù l'ormone di crescita umana da e prospettive di i pazienti, i genitori di i pazienti, i prufessiunali sanitari, e cumpagnie farmaceutiche è i pagatori. L'endocrinologi pediatrici ponu valutà i rari effetti avversi di l'iniezioni cutidiane di l'ormone di crescita per 2 anni cù a probabilità di nisuna o solu una crescita minima di a dimensione di u corpu adultu paragunata à u presente. I masci ponu crede chì ancu s'è a so altezza pò aumentà solu di 2 cm, vale a pena iniettà l'ormone di crescita, ma u pagatore è a cumpagnia farmaceutica ponu avè punti di vista diversi.
Pigliemu cum'è esempiu l'eGFR basatu annantu à a creatinina, chì hè un indicatore di funzione renale largamente utilizatu per diagnosticà è stadià a malatia renale cronica, stabilisce e cundizioni di trapianto di rene o di donazione, è determinà i criteri di riduzione è e contraindicazioni per parechji medicinali prescritti. L'EGFR hè una semplice equazione di regressione utilizata per stimà u tassu di filtrazione glomerulare misuratu (mGFR), chì hè un standard di riferimentu, ma u metudu di valutazione hè relativamente ingombrante. Questa equazione di regressione ùn pò esse cunsiderata un mudellu di IA, ma illustra parechji principii nantu à i valori umani è u ragiunamentu probabilisticu.
U primu puntu d'entrata per i valori umani per entre in l'eGFR hè quandu si selezziunanu i dati per l'equazioni di adattamentu. A coda originale aduprata per cuncepisce a formula eGFR hè cumposta principalmente da participanti neri è bianchi, è a so applicabilità à parechji altri gruppi etnici ùn hè micca chjara. I punti d'entrata successivi per i valori umani in questa formula includenu: selezziunà a precisione di mGFR cum'è ughjettivu primariu per valutà a funzione renale, ciò chì hè un livellu accettabile di precisione, cumu misurà a precisione, è aduprà l'eGFR cum'è soglia per attivà a presa di decisioni cliniche (cum'è determinà e cundizioni per u trapianto di rene o prescrive medicazione). Infine, quandu si selezziuna u cuntenutu di u mudellu d'input, i valori umani entreranu ancu in questa formula.
Per esempiu, prima di u 2021, e linee guida suggerenu di aghjustà i livelli di creatinina in a formula eGFR secondu l'età, u sessu è a razza di u paziente (classificati solu cum'è individui neri o micca neri). L'aghjustamentu basatu annantu à a razza hà per scopu di migliurà a precisione di a formula mGFR, ma in u 2020, i principali ospedali anu cuminciatu à mette in discussione l'usu di l'eGFR basatu annantu à a razza, citendu ragioni cum'è u ritardu di l'elegibilità di u paziente per u trapianto è a concretizazione di a razza cum'è un cuncettu biologicu. A ricerca hà dimustratu chì a cuncepzione di mudelli eGFR in termini di razza pò avè impatti prufondi è variabili nantu à a precisione è i risultati clinichi; Dunque, fucalizza selettivamente nantu à a precisione o fucalizza nantu à una parte di i risultati riflette ghjudizii di valore è pò mascherà a presa di decisioni trasparente. Infine, u gruppu di travagliu naziunale hà prupostu una nova formula chì hè stata riadattata senza cunsiderà a razza per equilibrà e questioni di prestazione è di equità. Questu esempiu illustra chì ancu una semplice formula clinica hà parechji punti d'entrata in i valori umani.
In paragone cù e formule cliniche cù solu un picculu numeru d'indicatori predittivi, LLM pò esse custituitu da miliardi à centinaie di miliardi di parametri (pesi di mudellu) o più, ciò chì rende difficiule a capiscitura. A ragione per a quale dicemu "difficiule à capisce" hè chì in a maiò parte di i LLM, u modu esattu di ottene risposte per mezu di dumande ùn pò esse mappatu. U numeru di parametri per GPT-4 ùn hè ancu statu annunziatu; U so predecessore GPT-3 avia 175 miliardi di parametri. Più parametri ùn significanu micca necessariamente capacità più forti, postu chì i mudelli più chjuchi chì includenu più cicli computazionali (cum'è a serie di mudelli LLaMA [Large Language Model Meta AI]) o i mudelli chì sò finamente sintonizzati in basa à u feedback umanu funzioneranu megliu cà i mudelli più grandi. Per esempiu, secondu i valutatori umani, u mudellu InstrumentGPT (un mudellu cù 1,3 miliardi di parametri) supera GPT-3 in l'ottimizazione di i risultati di l'output di u mudellu.
I dettagli specifichi di furmazione di GPT-4 ùn sò ancu stati divulgati, ma i dettagli di i mudelli di generazione precedente, cumpresi GPT-3, InstrumentGPT, è parechji altri LLM open-source sò stati divulgati. Oghje, parechji mudelli AI venenu cù carte di mudellu; I dati di valutazione è di sicurezza di GPT-4 sò stati publicati in una carta di sistema simile furnita da a cumpagnia di creazione di mudelli OpenAI. A creazione di LLM pò esse divisa in duie tappe: a tappa iniziale di pre-furmazione è a tappa di messa à puntu fine destinata à ottimizà i risultati di output di u mudellu. In a tappa di pre-furmazione, u mudellu hè furnitu cù un grande corpus chì include u testu Internet originale per furmallu à predisce a prossima parola. Stu prucessu apparentemente simplice di "cumpletamentu automaticu" produce un putente mudellu fundamentale, ma pò ancu purtà à un cumpurtamentu dannusu. I valori umani entreranu in a tappa di pre-furmazione, cumprese a selezzione di dati di pre-furmazione per GPT-4 è a decisione di rimuovere cuntenutu inappropriatu cum'è cuntenutu pornograficu da i dati di pre-furmazione. Malgradu questi sforzi, u mudellu basicu pò ancu esse nè utile nè capace di cuntene risultati di output dannosi. In a prossima tappa di messa à puntu fine, emergeranu parechji cumpurtamenti utili è innocui.
In a fase di messa à puntu, u cumpurtamentu di i mudelli linguistichi hè spessu prufundamente alteratu per via di a messa à puntu supervisata è di l'apprendimentu di rinforzu basatu annantu à u feedback umanu. In a fase di messa à puntu supervisata, u persunale di l'appaltatore assuntu scriverà esempi di risposta per e parolle prompt è furmerà direttamente u mudellu. In a fase di apprendimentu di rinforzu basatu annantu à u feedback umanu, i valutatori umani urdineranu i risultati di l'output di u mudellu cum'è esempi di cuntenutu d'input. Dopu, applicate i risultati di paragone sopra per amparà u "mudellu di ricumpensa" è migliurà ulteriormente u mudellu per via di l'apprendimentu di rinforzu. Un stupente impegnu umanu di bassu livellu pò mette à puntu questi grandi mudelli. Per esempiu, u mudellu InstrumentGPT hà utilizatu una squadra di circa 40 persunali di l'appaltatore reclutati da siti web di crowdsourcing è hà passatu un test di screening destinatu à selezziunà un gruppu di annotatori chì sò sensibili à e preferenze di diversi gruppi di pupulazione.
Cum'è dimustranu sti dui esempi estremi, vale à dì a simplice formula clinica [eGFR] è u putente LLM [GPT-4], a presa di decisione umana è i valori umani ghjocanu un rolu indispensabile in a furmazione di i risultati di u mudellu. Sti mudelli di IA ponu catturà i so diversi valori di i pazienti è di i medichi ? Cumu guidà publicamente l'applicazione di l'IA in medicina ? Cum'è mintuvatu quì sottu, un riesame di l'analisi di e decisioni mediche pò furnisce una suluzione di principiu à sti prublemi.
L'analisi di e decisioni mediche ùn hè micca familiare à parechji clinici, ma pò distingue trà u ragiunamentu probabilisticu (per i risultati incerti ligati à a presa di decisioni, cum'è s'ellu si deve amministrà l'ormone di crescita umana in u scenariu clinicu cuntruversu mostratu in a Figura 1) è i fattori di cunsiderazione (per i valori soggettivi attaccati à questi risultati, u valore di i quali hè quantificatu cum'è "utilità", cum'è u valore di un aumentu di 2 cm in l'altezza maschile), furnendu suluzioni sistematiche per decisioni mediche cumplesse. In l'analisi di e decisioni, i clinici devenu prima determinà tutte e decisioni è probabilità pussibuli assuciate à ogni risultatu, è dopu incorporà l'utilità di u paziente (o di l'altra parte) assuciata à ogni risultatu per selezziunà l'opzione più adatta. Dunque, a validità di l'analisi di e decisioni dipende da s'ellu u paràmetru di u risultatu hè cumpletu, è ancu da s'ellu a misurazione di l'utilità è a stima di a probabilità sò accurate. Idealmente, questu approcciu aiuta à assicurà chì e decisioni sianu basate nantu à l'evidenza è allineate cù e preferenze di i pazienti, riducendu cusì u gap trà i dati oggettivi è i valori persunali. Stu metudu hè statu introduttu in u campu medicu parechji decennii fà è applicatu à a presa di decisioni individuale di i pazienti è à a valutazione di a salute di a pupulazione, cum'è furnisce raccomandazioni per u screening di u cancru colorectal à a pupulazione generale.
In l'analisi di e decisioni mediche, sò stati sviluppati diversi metudi per ottene l'utilità. A maiò parte di i metudi tradiziunali derivanu direttamente u valore da i pazienti individuali. U metudu u più simplice hè di utilizà una scala di valutazione, induve i pazienti valutanu u so livellu di preferenza per un certu risultatu nantu à una scala digitale (cum'è una scala lineare chì varieghja da 1 à 10), cù i risultati di salute più estremi (cum'è a salute cumpleta è a morte) situati à e duie estremità. U metudu di scambiu di tempu hè un altru metudu cumunemente utilizatu. In questu metudu, i pazienti devenu piglià una decisione nantu à quantu tempu sanu sò disposti à passà in cambiu di un periodu di mala salute. U metudu standard di ghjocu d'azzardo hè un altru metudu cumunemente utilizatu per determinà l'utilità. In questu metudu, i pazienti sò dumandati quale di e duie opzioni preferiscenu: o campà un certu numeru d'anni in salute nurmale cù una probabilità specifica (p) (t), è suppurtà u risicu di morte cù una probabilità 1-p; O assicuratevi di campà per t anni in cundizioni di salute incrociate. Dumandate à i pazienti parechje volte à diversi valori p finu à chì ùn mostranu alcuna preferenza per alcuna opzione, in modu chì l'utilità pò esse calculata in basa à e risposte di i pazienti.
In più di i metudi aduprati per elicità e preferenze individuali di i pazienti, sò stati sviluppati ancu metudi per ottene l'utilità per a pupulazione di pazienti. In particulare e discussioni di gruppu focali (chì riuniscenu i pazienti per discute esperienze specifiche) ponu aiutà à capisce e so perspettive. Per aggregà efficacemente l'utilità di u gruppu, sò state pruposte diverse tecniche di discussione di gruppu strutturata.
In pratica, l'introduzione diretta di l'utilità in u prucessu di diagnosi clinica è di trattamentu richiede assai tempu. Cum'è suluzione, i quistionarii d'inchiesta sò generalmente distribuiti à pupulazioni selezziunate à casu per ottene punteggi di utilità à u livellu di a pupulazione. Alcuni esempi includenu u quistionariu EuroQol à 5 dimensioni, a forma corta di pesu di utilità à 6 dimensioni, l'Indice di Utilità Sanitaria è u strumentu Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30.
Data di publicazione: 01 di ghjugnu di u 2024




