原始文章

這項德國研究發現,醫師和醫學生用ChatGPT查職業性肺病資料時,在找有害物質等研究任務上表現較好,也覺得自己專業知識有提升。但在臨床決策(像是否通報職業病)時,自己查資料的答對率反而更高。總結:ChatGPT適合輔助醫學研究,但臨床決策還是不能只靠它。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在提供實驗室醫學資訊上表現優異,75.9%的評估者偏好它的回答,認為提供全面且正確的資訊。相較之下,醫學專業人士的回答則以簡潔見長。ChatGPT可能在回答醫學問題上勝過專業人士,但仍需進一步研究確認其實用性,並探索整合到醫療保健中的可能性。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

這項研究評估了ChatGPT在醫學訓練中的診斷準確性和教育效用。分析150個Medscape案例後,發現ChatGPT正確回答49%的案例,整體診斷準確率為74%。雖然在解讀實驗室數值和影像結果上有些限制,但它在教育上顯示出潛力,能有效排除某些鑑別診斷並建議後續步驟,讓複雜的醫學概念更易理解。未來研究應著重提升其教育能力。 PubMed DOI

這項研究評估了ChatGPT對臨床問題的回答,與人類撰寫的網站Pearls4Peers.com進行比較,重點在可用性和可靠性。研究發現,ChatGPT的回答質量有顯著差異,約14%的回答被認為不實用,13%不準確。與人類來源相比,ChatGPT在可用性和可靠性方面的表現均不佳,超過30%的情況下表現不如人類。總體來看,這顯示在臨床決策中使用ChatGPT需謹慎。 PubMed DOI

2022年11月,OpenAI推出了ChatGPT,引發了對其在醫學領域有效性的討論。研究專注於ChatGPT對髕股疼痛的回答能力,並比較一般民眾、非骨科醫生及專家的評價。使用12個問題進行評估,結果顯示專家對ChatGPT的評分普遍較低,尤其在複雜問題上。雖然ChatGPT提供的資訊質量不錯,但隨著問題複雜度增加,其表現下降,顯示出人類專業知識在醫療中的重要性。 PubMed DOI

最近的研究比較了GPT-4與真正醫生在處理複雜初級醫療案例的表現。在瑞典進行的盲法觀察研究中,隨機選擇的醫生平均得分為6.0,頂尖醫生為7.2,而GPT-4僅為4.5,顯示出明顯差距。隨機醫生的表現比GPT-4高出1.6分,頂尖醫生則高出2.7分,且結果具統計意義。後續實驗中,GPT-4o的表現仍不及隨機醫生。整體來看,GPT-4在初級醫療情境中的表現不如人類醫生,未來應謹慎評估其應用。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI

這項研究評估了手部手術相關的線上醫療資訊,並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。 主要發現包括: 1. **可讀性**:Google的回應較易讀,平均在八年級水平,而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**:ChatGPT-4的可靠性與3.5相似,但低共識主題的可讀性較低,準確性差異不大。 3. **覆蓋範圍**:ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同,但在解剖學和病理生理學上相似。 總結來說,雖然ChatGPT能提供可靠的醫療資訊,但可讀性較差,醫療提供者需注意其局限性。 PubMed DOI

這項研究發現,ChatGPT-4在有選擇題選項時,答對率超過86%,但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊,但不是真的懂臨床情境。未來如果和專業醫療人員搭配,有機會幫助臨床工作,但還需要更多測試來確保安全和有效。 PubMed DOI

這項研究比較了ChatGPT-3.5和4在職業風險預防選擇題的表現,GPT-3.5正確率56.8%,GPT-4為73.9%。兩者在專業題目上都容易出錯,且錯誤類型相似。雖然GPT-4表現較好,但在職業健康領域應用上仍有限。建議持續驗證、訓練和針對地區調整,以提升可靠度。 PubMed DOI