Существование «женского обрезания» в мировой практике и в России
Женское обрезание, также известное как практикa женского генитального обрезания (ЖГО), остается актуальной и противоречивой темой в мировом медицинском сообществе. Эту традицию, которая включает в себя частичное или полное удаление внешних половых органов у женщин и девочек, практикуют в различных культурах, как правило, под влиянием социальных или религиозных норм. Несмотря на то, что она широко признана как форма нарушения прав человека, она все еще сохраняется в ряде стран, вызывая острые медицинские и социальные последствия.
Читать далее
Изучение возможностей ChatGPT в области женского здоровья
Исследователи из Оксфорда опубликовали в журнале Nature статью о применении ChatGPT в гинекологии и акушерстве.
Прикладываем частичный перевод статьи. С оригиналом Вы можете ознакомиться здесь
Искусственный интеллект (ИИ) трансформирует здравоохранение, а крупные языковые модели (LLM), такие как ChatGPT, предлагают новые возможности. В этом исследовании оценивается эффективность ChatGPT в интерпретации результатов первого и второго экзаменов Королевского колледжа акушеров и гинекологов Великобритании MRCOG – международных критериев оценки знаний и клинической аргументации в области акушерства и гинекологии. Мы проанализировали точность ChatGPT в зависимости от предметной области, влияние лингвистической сложности и уверенность в самооценке. Был подготовлен набор данных из 1824 вопросов MRCOG, что обеспечило минимальное предварительное знакомство с ChatGPT.
Ответы ChatGPT сравнивались с известными правильными ответами, а лингвистическая сложность оценивалась с использованием количества лексем и соотношения типов лексем. ChatGPT присваивал баллы достоверности и анализировал точность самооценки. ChatGPT достиг точности в 72,2% в первой части и 50,4% во второй, показав лучшие результаты в вопросах с одним наилучшим ответом (SBA), чем в вопросах с расширенным соответствием (EMQ). Полученные результаты подчеркивают потенциал и существенные ограничения ChatGPT в принятии клинических решений в области охраны здоровья женщин.
Введение
Женское здоровье, в частности акушерство и гинекология (O&G), - это область медицины, которая может принести значительную пользу. O&G, область, в которой в прошлом были значительные пробелы в диагностике и лечении, LLMS может помочь устранении этих различий. Искусственный интеллект может помочь в анализе историй болезни пациентов, визуализации и результатов анализов для ранней и точной диагностики. Кроме того, инструменты, управляемые искусственным интеллектом, могут предоставлять персонализированные варианты лечения, обрабатывая большие массивы данных для прогнозирования наиболее эффективных вмешательств для отдельных пациентов. Использование LLMs в O&G не только открывает возможности для улучшения результатов лечения пациентов, но и сокращает существующее неравенство в отношении здоровья.
Однако преимущества ChatGPT должны быть сведены на нет из-за острого осознания его ограничений, особенно в сложных условиях здравоохранения. ChatGPT был описан как “мастер на все руки, но не мастер ни в одном деле”. Тем не менее, он уже изучается врачами и пациентами в качестве дополнения к традиционному медицинскому подходу. Этические проблемы, связанные с этой технологией, распространены как никогда, включая вопросы предвзятости, управления информацией, конфиденциальности пациентов, прозрачности и подотчетности. Склонность ChatGPT генерировать убедительный, но фактически неверный контент, который часто называют “галлюцинациями”, еще больше усложняет его потенциальную полезность в медицинских учреждениях. Неспособность модели обосновать ошибочные решения еще больше усложняет ситуацию, вызывая опасения по поводу безопасности, интерпретируемости, воспроизводимости и учета неопределенности, что может иметь серьезные последствия для пациентов. Несмотря на то, что ChatGPT имеет огромные перспективы, его применение в здравоохранении требует тщательной оценки, чтобы убедиться в его надежности и понять его ограничения.
Программа специализированного обучения O&G в Великобритании представляет собой структурированный непрерывный образовательный курс, рассчитанный на семь лет. Он сочетает в себе как базовый, так и углубленный этапы обучения. Обучение начинается после того, как врач завершит начальную медицинскую подготовку, приобретет базовые компетенции за два года работы и получит полную регистрацию в Генеральном медицинском совете (GMC). В ходе программы слушатели должны сдать три ключевых экзамена (Первая, вторая и третья части MRCOG) на разных этапах, которые оценивают их клинические знания, логику мышления и навыки в O&G. Эти экзамены также являются формальными требованиями в рамках других международных программ подготовки в области нефтегазодобычи, в которых насчитывается более 100 тестовых центров MRCOG за пределами Великобритании.
Экзамен MRCOG Part One предназначен для оценки базовых научных знаний слушателей. Этот экзамен охватывает четыре ключевые области знаний: функции клеток, строение человека, измерения и манипуляции, а также понимание болезней, охватывая различные предметы, включая физиологию, анатомию, биофизику и клиническое мышление. Экзамен MRCOG, часть вторая, выводит оценку на более практический уровень, проверяя применение полученных знаний, т.е. клиническое рассуждение. Он включает в себя набор вопросов с единственным наилучшим ответом (SBA) и расширенных вопросов на соответствие (EMQ). Они оценивают теоретические знания обучаемого, а также его способность применять эти знания в практических ситуациях. Сочетание этих типов вопросов обеспечивает всестороннюю оценку способностей обучаемого в области инженерного дела, подготавливая его к углубленной практике в данной области. Экзамены MRCOG пользуются значительным международным признанием и считаются золотым стандартом в O&G. Получение квалификации MRCOG после получения медицинского диплома считается эталоном медицинской компетентности.
Характер вопросов, встречающихся на экзаменах MRCOG, в частности, SBA и EMQ, обеспечивает подходящую основу для оценки возможностей LLM, таких как ChatGPT. Эти форматы особенно сложны, поскольку часто содержат несколько ответов, которые все могут считаться правильными. Клиницисты должны опираться не только на свои знания, но и на свои клинические рассуждения и опыт, чтобы выбрать наиболее подходящий ответ из множества возможных вариантов. Таким образом, когда перед ChatGPT ставится задача найти единственный наилучший ответ, он проходит тщательную проверку своих способностей к клиническому мышлению. Это выходит за рамки простого запоминания информации, требуя вместо этого применения знаний в определенном клиническом контексте в соответствии со стандартами, установленными RCOG, и принятой клинической практикой.
Перед исследователями стояли три задачи: во-первых, оценить эффективность ChatGPT при интерпретации вопросов первой и второй частей теста MRCOG и ответах на них, тем самым оценив его точность в конкретной предметной области в контексте стандартизированных медицинских знаний и рассуждений. Во-вторых, определить, влияет ли сложность вопросов на точность работы ChatGPT, тем самым позволяя анализировать его клинические знания и логические способности независимо от языковых трудностей. В-третьих, изучить самооценку уверенности ChatGPT в своих ответах, что позволит получить представление о надежности и безопасности искусственного интеллекта в процессах принятия клинических решений. Этот аспект самооценки особенно важен, поскольку он может отражать способность модели оценивать свою достоверность и, как следствие, ее полезность в реальных медицинских приложениях, где цена ошибки потенциально высока.
Обсуждение
Это исследование представляет собой новую и углубленную оценку потенциала LLM как инструмента в области охраны здоровья женщин, в частности O&G. Используя обширный набор вопросов из первой и второй частей экзаменов Королевского колледжа акушеров и гинекологов MRCOG, мы провели подробный всесторонний анализ возможностей ChatGPT в понимании и применении медицинских знаний и аргументации в соответствии с международно признанными стандартами качества. ChatGPT продемонстрировал значительный уровень владения языком на экзамене MRCOG Part One, продемонстрировав способность оценивать медицинское содержание на основе текущей программы MRCOG. Учебная программа охватывает базовые и прикладные научные знания, необходимые квалифицированным медицинским специалистам до того, как они приступят к специальному обучению в O&G. В отличие от этого, на экзамене по второй части, который проверяет кандидатов с многолетним опытом работы в O&G на предмет применения их знаний (т.е. клинического мышления) к репрезентативным клиническим сценариям, результаты ChatGPT были хуже. Несмотря на то, что ChatGPT превзошел random chance, его ответы в среднем были столь же часто неверными, как и правильными. Значительная разница в результатах между экзаменами первой и второй частей MRCOG подчеркивает несколько важных факторов. Это расхождение может быть объяснено несколькими факторами:
Характер вопросов: Вопросы второй части требуют более сложных клинических рассуждений и принятия решений, в тех областях, где становятся очевидными ограничения ChatGPT в понимании нюансов медицинского контекста и интеграции эмпирических знаний.
Лингвистическая сложность: Хотя наш анализ показал, что лингвистическая сложность (количество уникальных лексем и соотношение типов лексем) оказала статистически значимое, но незначительное влияние на производительность, характер вопросов для клинического анализа во второй части может потребовать более глубокого понимания и обобщения, которые выходят за рамки широты и разнообразия словарного запаса.
Контекстуальное понимание: ChatGPT, хотя и владеет навыками обработки текста, не обладает способностью полностью понимать контекст и тонкости клинических сценариев. Это ограничение влияет на его эффективность в вопросах, требующих целостного понимания процессов ухода за пациентами и принятия решений.
Ограничения данных для обучения: Данные для обучения модели могут не охватывать конкретные и подробные клинические сценарии, представленные во второй части, что ограничивает ее способность точно прогнозировать и обосновывать эти вопросы.
Все эти факторы в совокупности подчеркивают существующие ограничения ChatGPT в медицинских приложениях, особенно в сложных задачах принятия клинических решений. Понимание этих ограничений имеет решающее значение для разработки и совершенствования моделей искусственного интеллекта с целью повышения их надежности и безопасности в клинических условиях.
В нашем исследовании рассматривалась организация и оценка экзаменов MRCOG. Набор данных состоял из вопросов, взятых из различных источников, что гарантировало, что они выходили за рамки обучающих данных, доступных для ChatGPT. Этот подход был направлен на то, чтобы уменьшить любое предварительное воздействие и потенциальное запоминание модели. Используя процесс двойного анализа для валидации, мы обеспечили как техническую, так и клиническую точность, что повышает надежность наших результатов. Расширенные совпадающие вопросы (EMQ) представляли особую проблему для ChatGPT из-за их формата, который часто включает в себя большее количество возможных вариантов ответа по сравнению с вопросами с одним наилучшим ответом (SBA). EMQ требуют более сложного анализа и возможности интегрировать множество фрагментов информации, что подчеркивает ограничения в возможностях модели для клинического анализа.
Чтобы оценить повторяемость наших тестов, мы стандартизировали взаимодействие с ChatGPT, используя согласованные параметры и структуру подсказок. Это включало в себя управление такими переменными, как настройка температуры модели, для обеспечения детерминированных выходных данных, что имеет решающее значение для воспроизведения результатов в последующих исследованиях. Несмотря на то, что в нашем исследовании не проводился повторный анализ одного и того же набора вопросов, мы считаем, что это наилучшим образом отражает то, как эта технология в настоящее время используется клиницистами и пациентами. Подробная настройка и стандартизированные процедуры обеспечивают основу, которую можно легко воспроизвести для дальнейших исследований. Будущие исследования могли бы расширить эту работу, сравнив результаты нескольких итераций и с различными версиями ChatGPT, а также с другими крупными языковыми моделями. Это позволило бы глубже понять повторяемость и надежность результатов, что способствовало бы расширению области применения искусственного интеллекта в клинических условиях.
Это исследование демонстрирует несколько существенных ограничений не только в знаниях предметной области ChatGPT, но и в понимании и применении сложных клинических знаний и рассуждений. Учитывая это несоответствие в результатах экзаменов по первой и второй частям, было бы преждевременно предполагать, что ChatGPT обладает сопоставимым или полезным уровнем понимания в O& G.
Этот вывод подтверждается, если принять во внимание общую самооценку ChatGPT и уверенность в своих ответах. Он демонстрировал высокую степень уверенности в неправильных ответах и плохо работал, когда в качестве варианта предлагался правильный ответ, о чем свидетельствуют форматы SBA и EMQ. Несмотря на то, что была отмечена статистическая значимость, практические последствия этого вывода остаются неясными, что требует дальнейшего исследования, чтобы выяснить, обладает ли ChatGPT врожденной способностью оценивать достоверность сгенерированных им ответов с какой-либо степенью надежности. Это указывает на то, что у ChatGPT нет надежного механизма самооценки своей уверенности, о чем свидетельствуют одинаковые баллы как за правильные, так и за неправильные ответы. Это несоответствие между уверенностью и корректностью вызывает опасения относительно надежности ChatGPT в сценариях принятия клинических решений или предоставления информации пациентам.
Было замечено, что для 192 вопросов ChatGPT присвоил одинаковые баллы вероятности каждому варианту ответа. Отсутствие возможности различать указывает либо на общую неопределенность, либо на неспособность правильно интерпретировать вопрос. Эти примеры подчеркивают существенное ограничение способности ChatGPT различать несколько вариантов ответа, что имеет решающее значение в клинических условиях, где точность принятия решений имеет первостепенное значение. Разбираясь в этих примерах, мы можем определить конкретные области, в которых производительность модели может быть улучшена, тем самым повышая ее надежность и безопасность в клинических условиях.
Возможности ChatGPT выходят за рамки медицинских знаний и включают широкий спектр приложений, таких как языковой перевод, создание контента и обслуживание клиентов. Однако в данном исследовании особое внимание уделяется сравнительному анализу результатов работы ChatGPT в области акушерства и гинекологии с использованием тестов MRCOG в качестве стандарта. Эти экзамены признаны на международном уровне и охватывают основные знания и навыки, необходимые в сфере здравоохранения, которое является важнейшим компонентом охраны здоровья женщин.
Женское здоровье охватывает широкий спектр вопросов, включая репродуктивное здоровье, материнское здоровье и состояния, которые в наибольшей степени влияют на женщин. Несмотря на то, что экзамены MRCOG в основном посвящены акушерству и гинекологии, они вносят значительный вклад в более широкую область женского здоровья, гарантируя, что практикующие врачи хорошо разбираются в медицинских и клинических аспектах ухода за женщинами во время беременности, родов и репродуктивного здоровья.
Учитывая масштаб нашего исследования, мы решили ограничить нашу оценку медицинскими знаниями ChatGPT, особенно в O&G, чтобы обеспечить четкий и целенаправленный анализ. Расширение обсуждения, включающее в себя все возможные области применения ChatGPT, снизило бы актуальность и применимость наших выводов в контексте клинической практики и ухода за пациентами, к которым мы стремимся.
Во всем мире растет обеспокоенность по поводу безопасности искусственного интеллекта; наши результаты подтверждают это. Хотя такие магистратуры, как ChatGPT, несомненно, обладают значительным потенциалом в нескольких областях, они продемонстрировали значительные ограничения в медицине и здравоохранении. Впечатляющие результаты в одной задаче не обязательно приводят к сомнительным результатам в других. Пользователи этой технологии, как практикующие врачи, так и пациенты, должны быть осведомлены об этом. Поскольку эти модели искусственного интеллекта продолжают развиваться, мы надеемся увидеть улучшение состояния здоровья женщин. Женское здоровье - это область со значительными пробелами в диагностике и лечении. Необходимо соблюдать осторожность, чтобы с помощью этих технологий она не расширилась. Безопасность в контексте охраны здоровья женщин должна быть приоритетом. В настоящее время ведется работа по разработке и оценке кандидатов медицинских наук, прошедших обучение по рекомендациям по наилучшей клинической практике для конкретного региона. Мы также разрабатываем платформу для безопасного тестирования LLM на основе местного и международного клинического консенсуса. В результате этой работы мы надеемся увидеть разработку надежных и безопасных моделей искусственного интеллекта, которые могут оказаться полезными.
Выводы
У этого исследования есть несколько важных преимуществ. Мы оценивали ChatGPT на основе данных, которые вряд ли использовались при его обучении. Это позволило провести более прямой и надежный опрос о его способности к клиническим знаниям и рассуждениям без предвзятого отношения к тестированию модели искусственного интеллекта на ранее изученных вопросах и ответах. По сути, мы отказались от тестирования системы на экзамене, который она уже запомнила, заставив ее вместо этого использовать свои текущие знания и рассуждения, относящиеся к конкретной предметной области. Мы также оценили различные уровни ожидаемой клинической пригодности, изучив ChatGPT в первой и второй частях MRCOG. Наша оценка включала в себя не только точность ответов, но и возможности модели по обработке лингвистических данных и ее самооценку уверенности. Мы продемонстрировали, что низкая производительность ChatGPT не связана с лингвистической сложностью. Аналогичным образом, мы показали, что ChatGPT одинаково уверен как в своих выводах, так и в правильности. В настоящее время ChatGPT отвечает на большинство вопросов, относительно не заботясь о безопасности или точности, за исключением общего заявления об отказе от ответственности. Это исследование было ограничено тем, что в нем не проводилось непосредственного сравнения результатов ChatGPT с результатами кандидатов, сдававших те же экзамены – RCOG не предоставляет эти данные. Однако мы полагаем, что магистранты с потенциалом, продемонстрированным ChatGPT, должны демонстрировать, по крайней мере, почти идеальную производительность. Особенно, если они должны быть такими же общедоступными, как ChatGPT.
В свете наших результатов мы предполагаем, что для того, чтобы магистры были жизнеспособны в медицинской практике, они должны сначала недвусмысленно продемонстрировать компетентность в предметной области как в плане знаний, так и в плане рассуждений. Такая компетентность предполагает не только сопоставление (или превосходство) с экспертами-людьми в области клинических знаний и логических задач, что само по себе недостаточно для понимания сложностей клинической медицины, но и острое осознание собственных границ знаний ИИ и связанных с ними рисков, когда к этим границам приближаются или нарушают их.
В заключение, хотя эффективность ChatGPT впечатляет с точки зрения развития больших языковых моделей (LLM), она неудовлетворительна для клинической практики. Модель продемонстрировала похвальную точность в базовых медицинских знаниях, но ее ограничения в клинических рассуждениях и задачах принятия решений в сочетании с высокой степенью уверенности в неправильных ответах подчеркивают необходимость существенной доработки. Таким образом, несмотря на свой потенциал, ChatGPT в его нынешнем виде не готов к использованию в клинических условиях или для предоставления медицинской информации в области женского здоровья.