原始文章

本研究比較了兩個版本的ChatGPT(3.5和4.0)在生成重症醫療建議的能力。結果顯示,ChatGPT 4.0在適當性上得分顯著高於3.5,但在一致性和可讀性方面差異不大。兩個版本都會產生錯誤資訊,顯示在缺乏專業知識的情況下使用這些工具的風險。這強調了臨床醫師需了解LLM的優缺點,以確保在重症醫療中安全有效地使用這些工具。研究已註冊於 https://osf.io/8chj7/。 PubMed DOI


站上相關主題文章列表

討論了大型語言模型(LLM)如ChatGPT在醫療保健領域的應用和限制。儘管AI語言模型展現印象深刻能力,但在現實中,特別是在複雜領域如醫學中,仍存在不確定性。論文探討了在臨床實踐、科學寫作、醫學潛在濫用及討論公共衛生議題方面使用ChatGPT的可行性。強調了在醫學領域中教育人們正確使用和了解AI語言模型的必要性和風險。 PubMed DOI

人工智慧和深度學習的進步讓OpenAI Inc.開發了ChatGPT,一個對話式聊天機器人。研究探討了ChatGPT在醫療保健和醫學研究領域的表現。結果顯示ChatGPT能提供快速答案,但可能有錯誤和限制,建議醫務人員在使用時要小心核實資訊。 PubMed DOI

研究了學術醫學領域的語言模型,提出了使用ChatGPT的指南:不要讓ChatGPT當作者、確保作者了解ChatGPT、不完全依賴ChatGPT寫作、驗證ChatGPT內容、使用ChatGPT需編輯、科學手稿中使用ChatGPT要透明。建議學術作者在使用ChatGPT時要考慮倫理並保持誠信。 PubMed DOI

研究比較了ChatGPT 3.5和ChatGPT 4回答醫學考試問題的表現,結果發現ChatGPT 4在準確度(85.7% vs. 57.7%)和一致性(77.8% vs. 44.9%)方面有明顯進步。這顯示ChatGPT 4在醫學教育和臨床決策上更可靠。但人類醫療服務仍然不可或缺,使用AI時應持續評估。 PubMed DOI

大型語言模型(LLMs)如ChatGPT-3.5在醫學教育中有應用,可填補知識空白、協助鑑別診斷、挑戰假設、支援決策、改善護理管理,甚至進行困難對話、倫理教學。儘管有擔憂,但已有行為準則指導使用。ChatGPT對病房學習有潛力,但仍需進一步研究。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究評估了ChatGPT對臨床問題的回答,與人類撰寫的網站Pearls4Peers.com進行比較,重點在可用性和可靠性。研究發現,ChatGPT的回答質量有顯著差異,約14%的回答被認為不實用,13%不準確。與人類來源相比,ChatGPT在可用性和可靠性方面的表現均不佳,超過30%的情況下表現不如人類。總體來看,這顯示在臨床決策中使用ChatGPT需謹慎。 PubMed DOI

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較,使用100個虛構臨床情境的麻醉問題。結果顯示,ChatGPT的整體質量評分與麻醉醫師相似,但同理心評分較高。不過,ChatGPT在科學共識一致性上表現不佳,且潛在傷害的比率較高。研究結論指出,雖然ChatGPT在醫療領域有潛力,但仍需改進以降低風險,並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI