آیا هوش مصنوعی میتواند جایگزین پزشک شود؟ بررسی واقعبینانه
تصور کنید هوش مصنوعی بتواند بیماری شما را دقیقتر از پزشک تشخیص دهد. اما چرا پزشکان با وجود این ابزار قدرتمند، همچنان به روال قبلی خود ادامه میدهند؟ مطالعه جدید به این پرسش پاسخ میدهد و چالشهای ادغام هوش مصنوعی در پزشکی را بررسی میکند.
چرا هوش مصنوعی به تنهایی از پزشکان بهتر عمل می کند، اما پزشکان با کمک هوش مصنوعی بهبود قابل توجهی ند
در حالی که بحث درباره کاربرد هوش مصنوعی در پزشکی همچنان ادامه دارد، یک مطالعه جدید و جالب توجه منتشر شده است. مدلهای زبانی بزرگ (LLM) نه تنها به عنوان کمککننده به پزشکان، بلکه به عنوان نیروگاههای تشخیصی مستقل نیز توانایی خود را نشان میدهند.مطالعه جدید دقت تشخیصی را بین پزشکان با استفاده از منابع سنتی، پزشکان با استفاده از GPT-4 و GPT-4 به تنهایی مقایسه کرد. نتایج شگفتانگیز و کمی نگرانکننده بودند: GPT-4 از هر دو گروه پزشکان بهتر عمل کرد، اما زمانی که پزشکان به GPT-4 دسترسی داشتند، عملکرد آنها به طور قابل توجهی بهبود نیافت. این چگونه ممکن است؟ به نظر میرسد یک شکاف عملکردی و شناختی در کار است - مشکلی که ادغام هوش مصنوعی در عمل پزشکی را به چالش میکشد.
پزشکان از LLMها بهرهبرداری نمیکنند
هسته اصلی یافتههای مطالعه در تضاد چشمگیری نهفته است. GPT-4 در استدلال تشخیصی به طور مستقل نمره چشمگیر 92.1% را کسب کرد. در مقایسه، پزشکان با استفاده از منابع سنتی نمره میانه "استدلال تشخیصی" 73.7% و کسانی که از GPT-4 به عنوان کمک استفاده میکردند، نمره کمی بالاتر 76.3% را کسب کردند. با این حال، هنگام بررسی دقت تشخیص نهایی، GPT-4 در 66% موارد تشخیص صحیح داشت، در مقایسه با 62% برای پزشکان - اگرچه این تفاوت از نظر آماری معنیدار نبود. این بهبود اندک نشان میدهد که صرفاً دسترسی پزشکان به یک ابزار پیشرفته هوش مصنوعی تضمین کننده عملکرد بهبودیافته نیست، و پیچیدگیهای عمیقتر در همکاری بین پزشکان انسانی و هوش مصنوعی را برجسته میکند.نویسندگان "استدلال تشخیصی" را به عنوان یک ارزیابی جامع از فرایند تفکر پزشک، نه فقط تشخیص نهایی وی، تعریف کردند. این شامل تدوین تشخیص افتراقی، شناسایی عوامل پشتیبانی یا مخالف هر تشخیص بالقوه و تعیین مراحل تشخیصی بعدی است. مطالعه از یک ابزار "بازتاب ساختار یافته" برای ثبت این فرآیند استفاده کرد و شرکتکنندگان را بر اساس توانایی آنها در ارائه تشخیصهای محتمل، شناسایی صحیح یافتههای پشتیبانی و مخالف و انتخاب ارزیابیهای مناسبتر امتیازدهی کرد. جالب است که معیار ارزیابی این نمره بالینی شباهتی به روش Chain of Thought دارد که در LLMها محبوبیت پیدا کرده است.
در مقابل، "دقت تشخیص نهایی" به طور خاص اندازهگیری کرد که آیا شرکتکنندگان به دقیقترین تشخیص برای هر مورد رسیدهاند یا خیر. بنابراین، "استدلال تشخیصی" در این زمینه شامل کل فرآیند شناختی است، در حالی که "تشخیص نهایی" فقط بر نتیجه تمرکز دارد.پزشکان با استفاده از LLMها مانند GPT-4 ممکن است به دلیل شک، آشنایی نداشتن با تعامل با هوش مصنوعی، بار شناختی و رویکردهای متفاوت، در بهبود تشخیص مشکل داشته باشند. پر کردن این شکاف برای بهرهبرداری کامل از LLMها در تشخیص پزشکی ضروری است. بیایید نگاه دقیقتری بیندازیم:
اعتماد و تکیه: اثر الیزای معکوس اعتماد به هوش مصنوعی یک پدیده ظریف است. در برخی زمینهها، کاربران ممکن است بیش از حد به بینشهای تولید شده توسط هوش مصنوعی اعتماد کنند، که به عنوان اثر الیزای شناخته میشود، که در آن ما به هوش مصنوعی انسانگونه میشویم و تواناییهای آن را بیش از حد برآورد میکنیم. با این حال، در محیطهای بالینی، ممکن است اثر معکوس رخ دهد. پزشکان که سالها در تیز کردن دقت تشخیصی خود صرف کردهاند، ممکن است نسبت به پیشنهادات یک مدل شک داشته باشند، به خصوص اگر این توصیهها با شهود بالینی آنها مطابقت نداشته باشد. در این مطالعه، ممکن است برخی از پزشکان یا ورودی LLM را نادیده گرفته یا کمارزش تلقی کرده باشند و ترجیح دادهاند به قضاوت خود تکیه کنند.شک آنها بیدلیل نیست. پزشکان آموزش دیدهاند که اطلاعات را زیر سوال ببرند و تأیید کنند، مهارتی حیاتی در جلوگیری از خطاهای تشخیصی. با این حال، این احتیاط ذاتی ممکن است منجر به نادیده گرفتن بینشهای بالقوه مفید مبتنی بر هوش مصنوعی شود. بنابراین، چالش ایجاد پل اعتماد است که در آن ابزارهای هوش مصنوعی به عنوان مکملهای قابل اعتماد دیده شوند نه مداخله در تخصص بالینی.
هنر مهندسی درخواست جالب اینجاست که مطالعه به پزشکان اجازه داد تا از GPT-4 بدون آموزش صریح در مورد نحوه تعامل موثر با آن استفاده کنند. در زبان هوش مصنوعی، "مهندسی درخواست" به تدوین پرسشهای ورودی به گونهای اشاره دارد که کارایی خروجی یک LLM را به حداکثر برساند. بدون آموزش مناسب، پزشکان ممکن است سؤالات خود را به طور بهینه برای مدل تدوین نکرده باشند، که منجر به پاسخهایی شد که کمتر مرتبط یا عملی بودند.موفقیت GPT-4 به عنوان یک ابزار مستقل در این مطالعه نشان میدهد که هنگام استفاده با درخواستهای دقیق، استدلال تشخیصی آن میتواند بسیار خوب باشد. با این حال، در یک محیط بالینی واقعی، پزشکان متخصص هوش مصنوعی نیستند. آنها ممکن است وقت یا تجربه کافی برای آزمایش درخواستها برای به دست آوردن بهترین نتایج را نداشته باشند. مهندسی ناکافی درخواست به یک مانع برای استفاده موثر از هوش مصنوعی در تصمیمگیری بالینی تبدیل میشود. با این حال، LLMهای جدیدتر مانند o1 OpenAI ممکن است با پردازش Chain of Thought (CoT) در واقع درخواست را سادهتر کنند.
بار شناختی و ادغام جریان کار جاسازی یک LLM در فرآیند تشخیص، یک لایه اضافی از پردازش شناختی را اضافه میکند. پزشکان باید نه تنها خروجیهای مدل را تفسیر کنند، بلکه آنها را با دانش بالینی خود ادغام کنند. این یک بار شناختی را معرفی میکند، به خصوص تحت محدودیتهای زمانی در یک محیط بالینی شلوغ. تلاش ذهنی اضافی مورد نیاز برای ارزیابی، تأیید و ادغام پیشنهادات LLM ممکن است منجر به استفاده نامطلوب یا رد کامل ورودی آن شود.کارایی در استدلال بالینی به یک جریان کار روان بستگی دارد. اگر ادغام GPT-4 در فرآیند تشخیص، این جریان کار را پیچیدهتر کند تا سادهتر، بیشتر یک مانع است تا یک کمک. رفع این مانع نیازمند بازطراحی نحوه ارائه و استفاده پزشکان از هوش مصنوعی است تا اطمینان حاصل شود که به طور طبیعی در فرآیندهای تصمیمگیری آنها جای میگیرد.
تفاوت در رویکرد تشخیصی: ظرافت انسانی در مقابل تطابق الگو پزشکان به قضاوت بالینی ظریف متکی هستند، آمیزه ای از تجربه، زمینه بیمار و نشانههای ظریفی که اغلب از الگوهای سختگیرانه سرپیچی می کنند. از سوی دیگر، LLMها در تشخیص الگو و سنتز داده ماهر هستند. زمانی که پیشنهادات مدل با رویکرد تشخیصی یا روایت یک پزشک مطابقت نداشته باشد، ممکن است تمایل به رد ورودی هوش مصنوعی به عنوان نامرتبط یا نادرست وجود داشته باشد.این تفاوت در رویکرد نشان دهنده یک شکاف شناختی است. در حالی که LLMها میتوانند الگوها را به طور کارآمد مطابقت دهند، ممکن است فاقد ظرافتهای خاص زمینه باشند که پزشکان انسانی به آنها ارزش میدهند. برعکس، پزشکان ممکن است به دلیل مسیرهای استدلال به ظاهر سفت یا خارجی آن، بینشهای ارزشمند از یک LLM را نادیده بگیرند.
به سوی همکاری بهتر انسان و هوش مصنوعی
این مطالعه یک بینش کلیدی را نشان میدهد: حتی ابزارهای قدرتمند هوش مصنوعی ممکن است بدون رفع شکافهای شناختی و عملکردی در همکاری پزشک و هوش مصنوعی نتوانند عملکرد بالینی را بهبود بخشند. برای بهرهمندی از پزشکی، صرفاً دسترسی به ابزارهای پیشرفته کافی نیست، بلکه نحوه ادغام آنها در استدلال بالینی نیز مهم است. این ممکن است نیاز به آموزش، اصلاح رابطهای کاربری و ایجاد اعتماد به قابلیتهای هوش مصنوعی داشته باشد.در نهایت، وعده هوش مصنوعی در پزشکی در تقویت، نه جایگزینی، تخصص انسانی نهفته است. پر کردن شکاف بین LLMها و پزشکان نیازمند درک هر دو شناخت انسان و عملکرد هوش مصنوعی برای ایجاد یک رابطه همزیستی است که مراقبت از بیمار را بهبود بخشد.
21:42 - 18 مهر 1403