原始文章

在2022年,OpenAI推出的ChatGPT 3.5在醫學教育和研究中被應用,但因信息來源不明和數據過時,準確性受到質疑。本研究評估了ChatGPT在GESEA測試中的表現,結果顯示整體準確率為59%,其中64%的回答有全面解釋。GESEA Level 1的準確率為64%,而Level 2則為54%。這強調了使用AI技術時需進行準確性驗證和倫理考量。未來應探討其在婦科腫瘤學等專業領域的可靠性,並比較不同版本的聊天機器人。總之,AI在科學研究中潛力巨大,但需進一步驗證其有效性。 PubMed DOI


站上相關主題文章列表

人工智慧如ChatGPT在醫療方面有潛力,尤其在診斷和治療上。研究顯示,在外科知識問題上,ChatGPT的表現接近或超越人類水準,尤其在多重選擇問題上更優秀,提供獨到見解。然而,有時答案可能不正確,且回應可能不一致。儘管表現令人驚豔,但仍需進一步研究以確保在臨床上的安全使用。 PubMed DOI

這項研究評估了ChatGPT在腫瘤學考試問題上的準確性,使用了單次學習的方法。研究中將600道來自國家放射腫瘤學在職考試的選擇題輸入到ChatGPT 4o和3.5中。結果顯示,ChatGPT 4o的正確率為72.2%,而3.5則為53.8%。在不同問題類別中,特別是關鍵研究和治療建議方面,ChatGPT的表現較弱。儘管有些限制,最新版本的ChatGPT顯示出顯著改進,未來在腫瘤學醫學訓練和決策中可能成為有價值的資源。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究評估了ChatGPT對乳腺癌常見問題的回答準確性,顯示它在病患教育中的潛力。研究收集了100個問題,專家評估後發現,大部分回答至少部分正確,但仍有5個完全錯誤、22個部分正確、42個正確但缺乏細節,只有31個高度準確。這顯示ChatGPT可作為輔助工具,但不準確的情況強調了專業監督的重要性。研究建議在醫療中整合AI工具,以增進病患與醫療提供者的互動,並確保資訊隨時更新。 PubMed DOI

這項研究評估了ChatGPT-4在生殖醫學問題上的表現,使用醫師考試資料庫和治療指導方針的查詢。三位專家根據相關性、準確性、完整性和可理解性進行評分。結果顯示,ChatGPT-4在該領域知識豐富,相關性和可理解性良好,但多選題的準確率僅為63.38%。專家評分差異明顯,其中一位專家評分較高。雖然它提供了實用建議和對指導方針的理解,但對地區性差異的知識仍有不足。總體來看,它可能成為生殖醫學中對患者和醫師的有用輔助工具。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

這項研究評估了三款生成式AI聊天機器人—Chat GPT-4、Claude和Bard—在回答子宮內膜異位症問題的準確性。九位婦產科醫生對十個常見問題的回答進行評分,結果顯示Bard平均得分3.69,Chat GPT 4.24,Claude 3.7。雖然這些機器人的回答大多正確,但仍不夠全面,Chat GPT的表現最佳。研究強調持續評估這些聊天機器人的必要性,以確保能提供準確且全面的資訊,並指出隨著生成式AI在醫療領域的普及,進一步研究的重要性。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究探討了ChatGPT在提供性別肯定手術(GAS)患者醫療資訊的角色。研究比較了經驗醫生與ChatGPT的回應,結果顯示ChatGPT的回應雖然較複雜,但在可靠性、品質和可理解性上表現良好。它提供了詳細且相關的資訊,強調了諮詢醫療提供者及處理心理層面的重要性。雖然ChatGPT在患者教育上有潛力,但因為其較高的閱讀水平和缺乏透明參考文獻,使用時仍需謹慎。總體來說,ChatGPT在提升GAS患者教育方面顯示出潛力,但仍需改進。 PubMed DOI