آیا هوش مصنوعی می‌تواند جایگزین پزشک شود؟ بررسی واقع‌بینانه

تصور کنید هوش مصنوعی بتواند بیماری شما را دقیق‌تر از پزشک تشخیص دهد. اما چرا پزشکان با وجود این ابزار قدرتمند، همچنان به روال قبلی خود ادامه می‌دهند؟ مطالعه جدید به این پرسش پاسخ می‌دهد و چالش‌های ادغام هوش مصنوعی در پزشکی را بررسی می‌کند.

چرا هوش مصنوعی به تنهایی از پزشکان بهتر عمل می کند، اما پزشکان با کمک هوش مصنوعی بهبود قابل توجهی ند

در حالی که بحث درباره کاربرد هوش مصنوعی در پزشکی همچنان ادامه دارد، یک مطالعه جدید و جالب توجه منتشر شده است. مدل‌های زبانی بزرگ (LLM) نه تنها به عنوان کمک‌کننده به پزشکان، بلکه به عنوان نیروگاه‌های تشخیصی مستقل نیز توانایی خود را نشان می‌دهند.مطالعه جدید دقت تشخیصی را بین پزشکان با استفاده از منابع سنتی، پزشکان با استفاده از GPT-4 و GPT-4 به تنهایی مقایسه کرد. نتایج شگفت‌انگیز و کمی نگران‌کننده بودند: GPT-4 از هر دو گروه پزشکان بهتر عمل کرد، اما زمانی که پزشکان به GPT-4 دسترسی داشتند، عملکرد آن‌ها به طور قابل توجهی بهبود نیافت. این چگونه ممکن است؟ به نظر می‌رسد یک شکاف عملکردی و شناختی در کار است - مشکلی که ادغام هوش مصنوعی در عمل پزشکی را به چالش می‌کشد.

پزشکان از LLMها بهره‌برداری نمی‌کنند

هسته اصلی یافته‌های مطالعه در تضاد چشمگیری نهفته است. GPT-4 در استدلال تشخیصی به طور مستقل نمره چشمگیر 92.1% را کسب کرد. در مقایسه، پزشکان با استفاده از منابع سنتی نمره میانه "استدلال تشخیصی" 73.7% و کسانی که از GPT-4 به عنوان کمک استفاده می‌کردند، نمره کمی بالاتر 76.3% را کسب کردند. با این حال، هنگام بررسی دقت تشخیص نهایی، GPT-4 در 66% موارد تشخیص صحیح داشت، در مقایسه با 62% برای پزشکان - اگرچه این تفاوت از نظر آماری معنی‌دار نبود. این بهبود اندک نشان می‌دهد که صرفاً دسترسی پزشکان به یک ابزار پیشرفته هوش مصنوعی تضمین کننده عملکرد بهبودیافته نیست، و پیچیدگی‌های عمیق‌تر در همکاری بین پزشکان انسانی و هوش مصنوعی را برجسته می‌کند.نویسندگان "استدلال تشخیصی" را به عنوان یک ارزیابی جامع از فرایند تفکر پزشک، نه فقط تشخیص نهایی وی، تعریف کردند. این شامل تدوین تشخیص افتراقی، شناسایی عوامل پشتیبانی یا مخالف هر تشخیص بالقوه و تعیین مراحل تشخیصی بعدی است. مطالعه از یک ابزار "بازتاب ساختار یافته" برای ثبت این فرآیند استفاده کرد و شرکت‌کنندگان را بر اساس توانایی آن‌ها در ارائه تشخیص‌های محتمل، شناسایی صحیح یافته‌های پشتیبانی و مخالف و انتخاب ارزیابی‌های مناسب‌تر امتیازدهی کرد. جالب است که معیار ارزیابی این نمره بالینی شباهتی به روش Chain of Thought دارد که در LLMها محبوبیت پیدا کرده است.
در مقابل، "دقت تشخیص نهایی" به طور خاص اندازه‌گیری کرد که آیا شرکت‌کنندگان به دقیق‌ترین تشخیص برای هر مورد رسیده‌اند یا خیر. بنابراین، "استدلال تشخیصی" در این زمینه شامل کل فرآیند شناختی است، در حالی که "تشخیص نهایی" فقط بر نتیجه تمرکز دارد.پزشکان با استفاده از LLMها مانند GPT-4 ممکن است به دلیل شک، آشنایی نداشتن با تعامل با هوش مصنوعی، بار شناختی و رویکردهای متفاوت، در بهبود تشخیص مشکل داشته باشند. پر کردن این شکاف برای بهره‌برداری کامل از LLMها در تشخیص پزشکی ضروری است. بیایید نگاه دقیق‌تری بیندازیم:
اعتماد و تکیه: اثر الیزای معکوس اعتماد به هوش مصنوعی یک پدیده ظریف است. در برخی زمینه‌ها، کاربران ممکن است بیش از حد به بینش‌های تولید شده توسط هوش مصنوعی اعتماد کنند، که به عنوان اثر الیزای شناخته می‌شود، که در آن ما به هوش مصنوعی انسان‌گونه می‌شویم و توانایی‌های آن را بیش از حد برآورد می‌کنیم. با این حال، در محیط‌های بالینی، ممکن است اثر معکوس رخ دهد. پزشکان که سال‌ها در تیز کردن دقت تشخیصی خود صرف کرده‌اند، ممکن است نسبت به پیشنهادات یک مدل شک داشته باشند، به خصوص اگر این توصیه‌ها با شهود بالینی آن‌ها مطابقت نداشته باشد. در این مطالعه، ممکن است برخی از پزشکان یا ورودی LLM را نادیده گرفته یا کم‌ارزش تلقی کرده باشند و ترجیح داده‌اند به قضاوت خود تکیه کنند.شک آن‌ها بی‌دلیل نیست. پزشکان آموزش دیده‌اند که اطلاعات را زیر سوال ببرند و تأیید کنند، مهارتی حیاتی در جلوگیری از خطاهای تشخیصی. با این حال، این احتیاط ذاتی ممکن است منجر به نادیده گرفتن بینش‌های بالقوه مفید مبتنی بر هوش مصنوعی شود. بنابراین، چالش ایجاد پل اعتماد است که در آن ابزارهای هوش مصنوعی به عنوان مکمل‌های قابل اعتماد دیده شوند نه مداخله در تخصص بالینی.
هنر مهندسی درخواست جالب اینجاست که مطالعه به پزشکان اجازه داد تا از GPT-4 بدون آموزش صریح در مورد نحوه تعامل موثر با آن استفاده کنند. در زبان هوش مصنوعی، "مهندسی درخواست" به تدوین پرسش‌های ورودی به گونه‌ای اشاره دارد که کارایی خروجی یک LLM را به حداکثر برساند. بدون آموزش مناسب، پزشکان ممکن است سؤالات خود را به طور بهینه برای مدل تدوین نکرده باشند، که منجر به پاسخ‌هایی شد که کمتر مرتبط یا عملی بودند.موفقیت GPT-4 به عنوان یک ابزار مستقل در این مطالعه نشان می‌دهد که هنگام استفاده با درخواست‌های دقیق، استدلال تشخیصی آن می‌تواند بسیار خوب باشد. با این حال، در یک محیط بالینی واقعی، پزشکان متخصص هوش مصنوعی نیستند. آن‌ها ممکن است وقت یا تجربه کافی برای آزمایش درخواست‌ها برای به دست آوردن بهترین نتایج را نداشته باشند. مهندسی ناکافی درخواست به یک مانع برای استفاده موثر از هوش مصنوعی در تصمیم‌گیری بالینی تبدیل می‌شود. با این حال، LLMهای جدیدتر مانند o1 OpenAI ممکن است با پردازش Chain of Thought (CoT) در واقع درخواست را ساده‌تر کنند.
بار شناختی و ادغام جریان کار جاسازی یک LLM در فرآیند تشخیص، یک لایه اضافی از پردازش شناختی را اضافه می‌کند. پزشکان باید نه تنها خروجی‌های مدل را تفسیر کنند، بلکه آن‌ها را با دانش بالینی خود ادغام کنند. این یک بار شناختی را معرفی می‌کند، به خصوص تحت محدودیت‌های زمانی در یک محیط بالینی شلوغ. تلاش ذهنی اضافی مورد نیاز برای ارزیابی، تأیید و ادغام پیشنهادات LLM ممکن است منجر به استفاده نامطلوب یا رد کامل ورودی آن شود.کارایی در استدلال بالینی به یک جریان کار روان بستگی دارد. اگر ادغام GPT-4 در فرآیند تشخیص، این جریان کار را پیچیده‌تر کند تا ساده‌تر، بیشتر یک مانع است تا یک کمک. رفع این مانع نیازمند بازطراحی نحوه ارائه و استفاده پزشکان از هوش مصنوعی است تا اطمینان حاصل شود که به طور طبیعی در فرآیندهای تصمیم‌گیری آن‌ها جای می‌گیرد.
تفاوت در رویکرد تشخیصی: ظرافت انسانی در مقابل تطابق الگو پزشکان به قضاوت بالینی ظریف متکی هستند، آمیزه ای از تجربه، زمینه بیمار و نشانه‌های ظریفی که اغلب از الگوهای سختگیرانه سرپیچی می کنند. از سوی دیگر، LLMها در تشخیص الگو و سنتز داده ماهر هستند. زمانی که پیشنهادات مدل با رویکرد تشخیصی یا روایت یک پزشک مطابقت نداشته باشد، ممکن است تمایل به رد ورودی هوش مصنوعی به عنوان نامرتبط یا نادرست وجود داشته باشد.این تفاوت در رویکرد نشان دهنده یک شکاف شناختی است. در حالی که LLMها می‌توانند الگوها را به طور کارآمد مطابقت دهند، ممکن است فاقد ظرافت‌های خاص زمینه باشند که پزشکان انسانی به آن‌ها ارزش می‌دهند. برعکس، پزشکان ممکن است به دلیل مسیرهای استدلال به ظاهر سفت یا خارجی آن، بینش‌های ارزشمند از یک LLM را نادیده بگیرند.

به سوی همکاری بهتر انسان و هوش مصنوعی

این مطالعه یک بینش کلیدی را نشان می‌دهد: حتی ابزارهای قدرتمند هوش مصنوعی ممکن است بدون رفع شکاف‌های شناختی و عملکردی در همکاری پزشک و هوش مصنوعی نتوانند عملکرد بالینی را بهبود بخشند. برای بهره‌مندی از پزشکی، صرفاً دسترسی به ابزارهای پیشرفته کافی نیست، بلکه نحوه ادغام آن‌ها در استدلال بالینی نیز مهم است. این ممکن است نیاز به آموزش، اصلاح رابط‌های کاربری و ایجاد اعتماد به قابلیت‌های هوش مصنوعی داشته باشد.در نهایت، وعده هوش مصنوعی در پزشکی در تقویت، نه جایگزینی، تخصص انسانی نهفته است. پر کردن شکاف بین LLMها و پزشکان نیازمند درک هر دو شناخت انسان و عملکرد هوش مصنوعی برای ایجاد یک رابطه همزیستی است که مراقبت از بیمار را بهبود بخشد.
21:42 - 18 مهر 1403

3641 Views


1 Reply