原始文章

這項研究評估了GPT-4在預測體外受精(IVF)妊娠結果的準確性,結果顯示其預測準確率為0.79,接收者操作特徵曲線下面積(AUROC)為0.89,均優於原始研究的0.78和0.87。這顯示GPT-4能有效創建和增強IVF成功的預測模型,可能有助於縮短數據科學家與醫療專業人員的距離。不過,仍需進一步研究,使用更大且多樣的數據集來確認這些結果,並擴大其在輔助生殖中的應用。 PubMed DOI


站上相關主題文章列表

研究比較三款大型語言模型在乳癌臨床上的表現,結果指出GPT-4.0在反饋質量、相關性和應用性方面表現最佳,勝過GPT-3.5和Claude2。GPT-4.0提供更詳盡的反饋,在各臨床領域表現優異,尤其在心理社會支持和治療決策方面。研究強調LLMs的潛力,特別是GPT-4.0,在乳癌臨床應用上的重要性,並呼籲在醫療環境中持續優化和評估準確性。 PubMed DOI

研究比較了GPT-4與傳統監督式模型在臨床註記中提取資訊的表現,結果顯示GPT-4在乳癌病理報告分類上表現優異,甚至超越其他LLMs和監督式模型。GPT-4的零-shot分類能力對標籤不平衡的任務特別有效。雖然LLMs減少了標註需求,但簡單模型配合大量標註資料也能達到相當效果。GPT-4有潛力加速臨床自然語言處理研究,減少標註需求,促進臨床研究中使用自然語言處理變數。 PubMed DOI

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究評估了AI語言模型ChatGPTv4在卵巢儲備不足(DOR)臨床指引中的表現,為期兩個月。研究結果顯示,ChatGPTv4在是非題的回答準確率達100%,多選題準確率從98.2%提升至100%。開放式回答的準確性和完整性也顯著改善,顯示出其在生殖內分泌學中作為可靠AI工具的潛力,能增強臨床決策和指引發展。不過,研究也指出受控環境的限制,可能無法完全反映真實臨床互動。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分,結果顯示GPT-4的平均得分為79.31,與住院醫師的得分相當,顯示其表現優異。特別是在婦產科問題上,GPT-4的得分高達90.22,顯示其在該領域的強大能力。研究強調,雖然LLMs如GPT-4展現出潛力,但仍需注意其局限性,應作為人類專業知識的輔助工具。 PubMed DOI

這項研究評估了ChatGPT-4在生殖醫學問題上的表現,使用醫師考試資料庫和治療指導方針的查詢。三位專家根據相關性、準確性、完整性和可理解性進行評分。結果顯示,ChatGPT-4在該領域知識豐富,相關性和可理解性良好,但多選題的準確率僅為63.38%。專家評分差異明顯,其中一位專家評分較高。雖然它提供了實用建議和對指導方針的理解,但對地區性差異的知識仍有不足。總體來看,它可能成為生殖醫學中對患者和醫師的有用輔助工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在識別孕婦臨床筆記中的住房不安全性方面的效果。主要發現顯示,GPT-4在識別住房不穩定案例上表現優於GPT-3.5,回憶率達0.924,超過人類抽取者的0.702。雖然GPT-4的精確度低於人類,但在去識別筆記中略有提升。研究建議,雖然手動抽取準確性較高,LLMs如GPT-4提供了可擴展且具成本效益的選擇,適合半自動化抽取,但仍需人類審查以避免錯誤解釋。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何分析1型糖尿病患者的持續血糖監測(CGM)數據。研究發現,GPT-4在10項定量指標中有9項達到完美準確度,並且在兩位臨床評分者的評估下,其生成的定性描述在準確性、完整性和安全性方面表現優異。這顯示GPT-4能有效總結CGM數據,可能提升糖尿病護理,並提供分析醫療數據的新方法。 PubMed DOI

COVID-19疫情對全球醫療系統造成壓力,特別是孕婦面臨更高健康風險。錯誤資訊的增加讓婦產科醫生在提供疫苗安全性建議時面臨挑戰。研究評估了四個AI模型(ChatGPT-3.5、ChatGPT-4、Microsoft Copilot和Google Bard)在提供COVID-19對懷孕影響的準確性。結果顯示,ChatGPT-4和Microsoft Copilot表現最佳,但仍有些不準確之處。研究強調了在醫療溝通中保持中立和客觀的重要性,並建議根據受眾選擇合適的AI工具。 PubMed DOI

這項研究評估了三種先進的人工智慧語言模型(AI-LLMs)在解讀心臟胎兒監護圖(CTG)影像的表現,對於監測胎兒健康至關重要。測試的模型包括ChatGPT-4o、Gemini Advanced和Copilot,並與初級醫生和資深醫生的解讀進行比較。結果顯示,ChatGPT-4o得分最高(77.86),接近資深醫生(80.43),在解讀深度上表現特別優秀。研究顯示,AI-LLMs,尤其是ChatGPT-4o,可能提升診斷準確性,改善婦產科病人護理。 PubMed DOI