Үлкен тіл моделі (LLM) жылдам сөздерге негізделген нанымды мақалалар жаза алады, кәсіби біліктілік емтихандарын тапсырады және пациенттерге мейірімді және эмпатикалық ақпарат жаза алады. Дегенмен, LLM-де көркем әдебиеттің, нәзіктіктің және дәл емес фактілердің белгілі тәуекелдерінен басқа, оларды жасау және пайдалану кезінде ықтимал кемсітушілік «адамдық құндылықтарды» қамтитын AI үлгілері сияқты басқа да шешілмеген мәселелер бірте-бірте басты назарға айналуда, тіпті егер LLM бұдан былай мазмұнды жасамаса және анық зиянды нәтижелерді жойса да, «LLM құндылықтары әлі де адами құндылықтардан ауытқуы» мүмкін.
Сансыз мысалдар AI үлгілерін үйрету үшін пайдаланылатын деректердің модель ішінде нығаюы мүмкін жеке және әлеуметтік құндылықтарды қалай кодтайтынын көрсетеді. Бұл мысалдар бірқатар қосымшаларды қамтиды, соның ішінде кеуде рентгенін автоматты түрде түсіндіру, тері ауруларын жіктеу және медициналық ресурстарды бөлуге қатысты алгоритмдік шешім қабылдау. Біздің журналдағы жақында жарияланған мақалада айтылғандай, біржақты оқыту деректері қоғамдағы құндылықтар мен бейтараптықтарды күшейтіп, ашуы мүмкін. Керісінше, зерттеулер сонымен қатар AI-ны біржақтылықты азайту үшін қолдануға болатындығын көрсетті. Мысалы, зерттеушілер тізе рентгендік пленкаларына терең оқыту үлгілерін қолданды және тізе буынындағы стандартты ауырлық көрсеткіштері (рентгенологтар бағалаған) жіберіп алған факторларды анықтады, осылайша қара және ақ пациенттер арасындағы түсініксіз ауырсыну айырмашылықтарын азайтты.
Барған сайын көп адамдар AI модельдеріндегі, әсіресе оқыту деректері бойынша, позицияны түсініп жатқанымен, AI үлгілерін әзірлеу және енгізу процесінде адами құндылықтардың көптеген басқа кіру нүктелеріне жеткілікті көңіл бөлінбейді. Медициналық AI жақында әсерлі нәтижелерге қол жеткізді, бірақ ол үлкен дәрежеде адам құндылықтарын және олардың тәуекелді бағалаумен және ықтималдық пайымдауларымен өзара әрекеттесуін нақты қарастырған жоқ, сондай-ақ модельделмеген.
Осы дерексіз ұғымдарды нақтылау үшін сіз өз жасының 3 пайызынан төмен 8 жасар балаға адамның рекомбинантты өсу гормонын тағайындауы қажет эндокринолог екеніңізді елестетіңіз. Баланың ынталандырылған өсу гормонының деңгейі 2 нг/мл-ден төмен (анықтамалық мән,>10 нг/мл, Америка Құрама Штаттарынан тыс көптеген елдер үшін анықтамалық мән>7 нг/мл) және оның адамның өсу гормонын кодтайтын гені сирек инактивация мутацияларын анықтады. Біз адамның өсу гормонының терапиясын қолдану осы клиникалық жағдайда айқын және даусыз деп есептейміз.
Адамның өсу гормонының терапиясын келесі сценарийлерде қолдану қарама-қайшылықтарды тудыруы мүмкін: 14 жастағы баланың бойы әрқашан өз құрдастарының 10-шы пайызында болды және ынталандырудан кейінгі адамның өсу гормонының шыңы 8 нг/мл. Бойға әсер ететін функционалдық мутациялар, сондай-ақ қысқалықтың басқа белгілі себептері жоқ және оның сүйек жасы 15 жаста (яғни дамудың кешігуі жоқ). Даудың бір бөлігі ғана адам өсу гормонының оқшауланған тапшылығын диагностикалау үшін пайдаланылатын өсу гормонының деңгейіне қатысты ондаған зерттеулер негізінде сарапшылар анықтаған шекті мәндердегі айырмашылықтарға байланысты. Кем дегенде, көптеген даулар пациенттер, пациенттердің ата-аналары, денсаулық сақтау мамандары, фармацевтикалық компаниялар және төлеушілер тұрғысынан адамның өсу гормонын терапиясын қолданудың тәуекел-пайда балансынан туындайды. Педиатрлық эндокринологтар өсу гормонының күнделікті инъекциясының сирек кездесетін жағымсыз әсерлерін 2 жыл бойына ересектер денесінің мөлшерінің қазіргімен салыстырғанда өспеу немесе тек ең аз өсу ықтималдығымен өлшей алады. Ұлдар олардың бойы тек 2 см-ге артуы мүмкін болса да, өсу гормонын енгізу керек деп санауы мүмкін, бірақ төлеуші мен фармацевтикалық компания әртүрлі көзқараста болуы мүмкін.
Мысал ретінде біз креатининге негізделген eGFR аламыз, ол созылмалы бүйрек ауруын диагностикалау және анықтау, бүйректі трансплантациялау немесе донорлық шарттарды орнату және көптеген рецепт бойынша берілетін препараттарды төмендету критерийлері мен қарсы көрсеткіштерін анықтау үшін кеңінен қолданылатын бүйрек функциясының индикаторы болып табылады. EGFR – өлшенген шумақтық фильтрация жылдамдығын (mGFR) бағалау үшін қолданылатын қарапайым регрессия теңдеуі, ол анықтамалық стандарт болып табылады, бірақ бағалау әдісі салыстырмалы түрде қиын. Бұл регрессия теңдеуін AI үлгісі деп санауға болмайды, бірақ ол адам құндылықтары мен ықтималдық пайымдаулары туралы көптеген принциптерді көрсетеді.
eGFR енгізу үшін адам құндылықтарының бірінші кіру нүктесі теңдеулерді орнату үшін деректерді таңдау болып табылады. eGFR формуласын құрастыру үшін пайдаланылатын бастапқы кезек негізінен ақ-қара қатысушылардан тұрады және оның көптеген басқа этникалық топтарға қолданылуы анық емес. Бұл формулаға адам құндылықтарының келесі енгізу нүктелері мыналарды қамтиды: бүйрек функциясын бағалаудың негізгі мақсаты ретінде mGFR дәлдігін таңдау, дәлдіктің қолайлы деңгейі қандай, дәлдікті қалай өлшеу керек және eGFR-ді клиникалық шешім қабылдауды бастау үшін шек ретінде пайдалану (мысалы, бүйрек қабырғасын трансплантациялау алдындағы дәрі-дәрмектерді анықтау немесе анықтау). Соңында, кіріс үлгісінің мазмұнын таңдаған кезде, адам құндылықтары да осы формуланы енгізеді.
Мысалы, 2021 жылға дейін нұсқаулар пациенттің жасына, жынысына және нәсіліне (тек қара немесе қара емес адамдар ретінде жіктеледі) негізделген eGFR формуласындағы креатинин деңгейін реттеуді ұсынады. Нәсілге негізделген түзету mGFR формуласының дәлдігін жақсартуға бағытталған, бірақ 2020 жылы ірі ауруханалар пациенттің трансплантацияға жарамдылығын кешіктіру және нәсілді биологиялық тұжырымдама ретінде нақтылау сияқты себептерге сілтеме жасай отырып, нәсілге негізделген eGFR пайдалануына күмән келтіре бастады. Зерттеулер көрсеткендей, eGFR үлгілерін нәсілдік тұрғыдан жобалау дәлдік пен клиникалық нәтижелерге терең және әртүрлі әсер етуі мүмкін; Сондықтан, таңдаулы түрде дәлдікке назар аудару немесе нәтижелердің бір бөлігіне назар аудару құнды пайымдауларды көрсетеді және ашық шешім қабылдауды бүркемелеуі мүмкін. Ақырында, ұлттық жұмыс тобы өнімділік пен әділдік мәселелерін теңестіру үшін жарысты қарастырмай қайта жабдықталған жаңа формуланы ұсынды. Бұл мысал қарапайым клиникалық формуланың да адам құндылықтарына көптеген кіру нүктелері бар екенін көрсетеді.
Болжамды көрсеткіштердің аз ғана саны бар клиникалық формулалармен салыстырғанда, LLM миллиардтан жүздеген миллиард параметрлерден (модельдік салмақ) немесе одан да көп болуы мүмкін, бұл түсінуді қиындатады. «Түсіну қиын» дейтін себебіміз, көптеген LLM-де сұрақ қою арқылы жауап алудың нақты әдісін картаға түсіру мүмкін емес. GPT-4 параметрлерінің саны әлі жарияланған жоқ; Оның алдындағы GPT-3 175 миллиард параметрге ие болды. Көбірек параметрлер міндетті түрде күштірек мүмкіндіктерді білдірмейді, өйткені көбірек есептеу циклдерін қамтитын кішірек үлгілер (мысалы, LLaMA [Үлкен тіл моделі Meta AI] үлгі сериясы) немесе адам пікіріне негізделген нақты реттелген үлгілер үлкен үлгілерге қарағанда жақсырақ жұмыс істейді. Мысалы, адам бағалаушыларының пікірінше, InstrumentGPT моделі (1,3 миллиард параметрі бар үлгі) модель шығару нәтижелерін оңтайландыруда GPT-3-тен асып түседі.
GPT-4 жаттығуларының нақты мәліметтері әлі ашылған жоқ, бірақ GPT-3, InstrumentGPT және басқа да көптеген ашық бастапқы LLM сияқты алдыңғы буын үлгілерінің мәліметтері ашылды. Қазіргі уақытта көптеген AI үлгілері үлгі карталарымен бірге келеді; GPT-4 бағалау және қауіпсіздік деректері OpenAI үлгісін жасау компаниясы ұсынған ұқсас жүйелік картада жарияланған. LLM құруды шамамен екі кезеңге бөлуге болады: бастапқы дайындық кезеңі және үлгі шығару нәтижелерін оңтайландыруға бағытталған нақты баптау кезеңі. Алдын ала дайындық кезеңінде модель келесі сөзді болжауға үйрету үшін түпнұсқа интернет мәтінін қамтитын үлкен корпуспен қамтамасыз етіледі. Қарапайым болып көрінетін бұл «автоматты аяқтау» процесі күшті іргелі үлгіні жасайды, бірақ ол зиянды мінез-құлыққа да әкелуі мүмкін. Адами құндылықтар GPT-4 үшін дайындыққа дейінгі деректерді таңдауды және жаттығу алдындағы деректерден порнографиялық мазмұн сияқты орынсыз мазмұнды жою туралы шешімді қоса алғанда, дайындыққа дейінгі кезеңге енеді. Осы күш-жігерге қарамастан, негізгі үлгі әлі де пайдалы немесе зиянды нәтижелерді қамтуға қабілетті болмауы мүмкін. Нақты реттеудің келесі кезеңінде көптеген пайдалы және зиянсыз мінез-құлық пайда болады.
Нақты баптау кезеңінде тіл үлгілерінің мінез-құлқы көбінесе адамның кері байланысына негізделген бақылаудағы дәл баптау және күшейту оқыту арқылы терең өзгереді. Бақыланатын дәл реттеу кезеңінде жалданған мердігер персонал жылдам сөздерге жауап мысалдарын жазып, үлгіні тікелей үйретеді. Адамның кері байланысына негізделген оқытуды күшейту кезеңінде адам бағалаушылары кіріс мазмұны мысалдары ретінде үлгінің шығыс нәтижелерін сұрыптайды. Содан кейін жоғарыда келтірілген салыстыру нәтижелерін «сыйақы үлгісін» үйрену үшін қолданыңыз және күшейтілген оқыту арқылы модельді одан әрі жетілдіріңіз. Төмен деңгейдегі таңғажайып адам қатысуы осы үлкен үлгілерді дәл баптай алады. Мысалы, InstrumentGPT моделі краудсорсинг веб-сайттарынан алынған шамамен 40 мердігер персоналдан тұратын топты қолданды және әртүрлі халық топтарының қалауларына сезімтал аннотаторлар тобын таңдауға бағытталған скринингтік сынақтан өтті.
Осы екі экстремалды мысал, атап айтқанда қарапайым клиникалық формула [eGFR] және күшті LLM [GPT-4] көрсеткендей, адам шешімдерін қабылдау және адами құндылықтар модель нәтижелерін қалыптастыруда таптырмас рөл атқарады. Бұл AI үлгілері пациент пен дәрігердің әртүрлі құндылықтарын қабылдай ала ма? Медицинада AI қолдануды көпшілікке қалай бағыттау керек? Төменде айтылғандай, медициналық шешімдерді талдауды қайта қарау осы мәселелердің принципті шешімін қамтамасыз етуі мүмкін.
Медициналық шешімдерді талдау көптеген клиницистерге таныс емес, бірақ ол ықтималдық пайымдауларды (1-суретте көрсетілген даулы клиникалық сценарийде адамның өсу гормонын енгізу керек пе сияқты белгісіз нәтижелер үшін) және есепке алу факторларын (осы нәтижелерге қосылған субъективті мәндер үшін, олардың мәні «см2» сияқты өсу мәнін) ажырата алады. ерлердің биіктігі), күрделі медициналық шешімдер үшін жүйелі шешімдерді қамтамасыз етеді. Шешімді талдау кезінде клиницистер алдымен әрбір нәтижеге байланысты барлық ықтимал шешімдер мен ықтималдықтарды анықтауы керек, содан кейін ең қолайлы нұсқаны таңдау үшін әрбір нәтижеге байланысты емделуші (немесе басқа тарап) утилитасын қосуы керек. Сондықтан шешімді талдаудың негізділігі нәтижені орнатудың жан-жақты болуына, сондай-ақ пайдалылықты өлшеу мен ықтималдықты бағалаудың дәлдігіне байланысты. Ең дұрысы, бұл тәсіл шешімдердің дәлелді және емделуші қалауларына сәйкес келуін қамтамасыз етуге көмектеседі, осылайша объективті деректер мен жеке құндылықтар арасындағы алшақтықты азайтады. Бұл әдіс медицина саласына бірнеше ондаған жылдар бұрын енгізілген және пациенттердің жеке шешімдерін қабылдау және халықтың денсаулығын бағалау үшін қолданылған, мысалы, жалпы халыққа колоректальды қатерлі ісік скринингі бойынша ұсыныстар беру.
Медициналық шешімдерді талдауда пайдалылықты алу үшін әртүрлі әдістер әзірленді. Дәстүрлі әдістердің көпшілігі жеке пациенттерден тікелей құнды алады. Ең қарапайым әдіс – пациенттер сандық шкала бойынша белгілі бір нәтижеге (мысалы, 1-ден 10-ға дейінгі аралықтағы сызықтық шкала) өз қалау деңгейін бағалайтын бағалау шкаласын қолдану, ең экстремалды денсаулық нәтижелері (толық денсаулық және өлім сияқты) екі жағында да орналасқан. Уақытпен алмасу әдісі тағы бір жиі қолданылатын әдіс болып табылады. Бұл әдісте пациенттер денсаулығы нашар кезеңге айырбастауға қанша сау уақыт жұмсауға дайын екендігі туралы шешім қабылдауы керек. Стандартты құмар ойын әдісі пайдалылықты анықтаудың тағы бір жиі қолданылатын әдісі болып табылады. Бұл әдісте пациенттерге екі нұсқаның қайсысын ұнататыны сұралады: не белгілі бір ықтималдықпен (p) (t) қалыпты денсаулық жағдайында белгілі бір жыл өмір сүреді және 1-р ықтималдығы бар өлім қаупін көтереді; Немесе денсаулық жағдайында т жыл өмір сүретініне көз жеткізіңіз. Пациенттердің жауаптары негізінде пайдалылықты есептеуге болатындай етіп, пациенттерден ешбір опцияны қаламағанша, әртүрлі p-мәндерінде бірнеше рет сұраңыз.
Пациенттердің жеке қалауын анықтау үшін қолданылатын әдістерден басқа, пациенттер популяциясы үшін пайдалылық алу әдістері де әзірленді. Әсіресе фокус-топтық талқылаулар (нақты тәжірибелерді талқылау үшін пациенттерді біріктіру) олардың перспективаларын түсінуге көмектеседі. Топтық пайдалылықты тиімді біріктіру үшін әртүрлі құрылымдық топтық талқылау әдістері ұсынылды.
Практикада клиникалық диагностика мен емдеу процесіне утилитаны тікелей енгізу өте көп уақытты қажет етеді. Шешім ретінде сауалнама сауалнамасы әдетте популяция деңгейінде пайдалылық ұпайларын алу үшін кездейсоқ таңдалған популяцияларға таратылады. Кейбір мысалдарға EuroQol 5 өлшемді сауалнамасы, 6 өлшемді пайдалы қызмет салмағының қысқаша пішіні, Денсаулық сақтау бағдарламасының индексі және Еуропалық қатерлі ісікке қарсы зерттеу және емдеу ұйымының өмір сапасы сауалнамасы Core 30 құралы кіреді.
Жіберу уақыты: 01 маусым 2024 ж




