Нове дослідження Колумбійського університету виявило, що великі мовні моделі (LLM), такі як ChatGPT-4, поки що не можуть надійно отримувати інформацію з медичних записів. У статті, опублікованій в JAMA Network Open, досліджували здатність ChatGPT-4 визначати, чи носили пацієнти шоломи під час травм на скутерах і велосипедах.
В ході дослідження, яке охопило 54 569 випадків звернення до відділення невідкладної допомоги з 2019 по 2022 рік, виявилося, що ChatGPT-4 не зміг ефективно замінити традиційні методи пошуку текстових даних для виявлення інформації про використання шоломів. Модель працювала добре тільки в тому випадку, коли всі тексти, використані в рядковому пошуку, були наявні, але мала труднощі з інтерпретацією негативних фраз, таких як «без шолома».
Хоча LLM мають потенціал для аналізу медичних записів, нинішні технології не забезпечують достатньої надійності. Дослідники зазначають, що ChatGPT-4 поки що не здатний стабільно виконувати цю задачу, що підкреслює необхідність більш надійних методів вилучення інформації з клінічних записів.