原始文章

這項研究評估了ChatGPT-4在生殖醫學問題上的表現,使用醫師考試資料庫和治療指導方針的查詢。三位專家根據相關性、準確性、完整性和可理解性進行評分。結果顯示,ChatGPT-4在該領域知識豐富,相關性和可理解性良好,但多選題的準確率僅為63.38%。專家評分差異明顯,其中一位專家評分較高。雖然它提供了實用建議和對指導方針的理解,但對地區性差異的知識仍有不足。總體來看,它可能成為生殖醫學中對患者和醫師的有用輔助工具。 PubMed DOI


站上相關主題文章列表

2023年2月的研究比較了ChatGPT對生育相關臨床提示的表現,發現與CDC和美國生殖醫學學會相比,ChatGPT在回應長度、事實內容、情感和客觀性方面與CDC相似,但有些事實不正確且缺乏參考資料。ChatGPT在生育知識上表現較好,但在引用來源和提供準確信息方面有限制。建議ChatGPT可提供臨床查詢回應,但需注意資訊準確性。 PubMed DOI

ChatGPT是OpenAI開發的AI,擅長自然直覺回答。雖然有時會出錯,但經過訓練改進。新版GPT-4預計比GPT-3.5多40%正確回答。在英文表現優秀,現正評估其他語言的醫學資訊。在日本醫學研究中,GPT-4比GPT-3.5表現更好,正確率達81.5%。有潛力成為醫師診斷輔助工具,符合日本醫學執照考試標準。透過持續學習,ChatGPT可成為醫學專業人士的決策支援系統。 PubMed DOI

研究發現ChatGPT在回答男性生殖學問題時,87.9%的答案正確且充分。對於某些主題,正確率更高。超過80%的問題得到準確可靠的答案,顯示在醫療領域有潛力,但也有限制。 PubMed DOI

研究比較了ChatGPT 3.5和ChatGPT 4回答醫學考試問題的表現,結果發現ChatGPT 4在準確度(85.7% vs. 57.7%)和一致性(77.8% vs. 44.9%)方面有明顯進步。這顯示ChatGPT 4在醫學教育和臨床決策上更可靠。但人類醫療服務仍然不可或缺,使用AI時應持續評估。 PubMed DOI

研究評估了ChatGPT在泌尿學領域的表現,發現版本4比版本3.5在回答問題上更好。雖然在辯論主題上有差異,但在提供患者醫學建議方面相似。ChatGPT可快速回答非專業人士問題,但不可取代醫療診斷或治療決策。 PubMed DOI

研究發現ChatGPT-4在回答與PCOS相關不孕症問題上表現良好,尤其在是非題方面表現完美。儘管多選題稍微下降,但整體表現仍穩定。這項研究強調ChatGPT-4對醫護人員在處理PCOS相關不孕症問題上的幫助。 PubMed DOI

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現,特別是版本3.5和4。分析了2017至2022年的多選題,結果顯示ChatGPT-4在所有考試中表現優於3.5,且每次考試都達到及格分數(≥60%)。不過,ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看,研究指出ChatGPT-4能有效回答複雜醫學問題,但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

這項研究評估了ChatGPT在男性學主題上的資訊準確性,針對患者和醫學生進行測試。研究人員提出120個與男性生殖健康相關的問題,並由兩位專家泌尿科醫生評分。結果顯示,50%的回答獲得1分,4.0版本稍好,達55.4%。常見問題的整體準確率為85.2%,而指導方針問題為81.5%。雖然ChatGPT的回答令人滿意,但仍有不完整之處,建議在泌尿科醫生指導下使用,以增進對男性學問題的理解。 PubMed DOI

這項研究評估了AI語言模型ChatGPTv4在卵巢儲備不足(DOR)臨床指引中的表現,為期兩個月。研究結果顯示,ChatGPTv4在是非題的回答準確率達100%,多選題準確率從98.2%提升至100%。開放式回答的準確性和完整性也顯著改善,顯示出其在生殖內分泌學中作為可靠AI工具的潛力,能增強臨床決策和指引發展。不過,研究也指出受控環境的限制,可能無法完全反映真實臨床互動。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI