原始文章

這項研究評估了GPT-4在預測體外受精(IVF)妊娠結果的準確性,結果顯示其預測準確率為0.79,接收者操作特徵曲線下面積(AUROC)為0.89,均優於原始研究的0.78和0.87。這顯示GPT-4能有效創建和增強IVF成功的預測模型,可能有助於縮短數據科學家與醫療專業人員的距離。不過,仍需進一步研究,使用更大且多樣的數據集來確認這些結果,並擴大其在輔助生殖中的應用。 PubMed DOI


站上相關主題文章列表

2023年2月的研究比較了ChatGPT對生育相關臨床提示的表現,發現與CDC和美國生殖醫學學會相比,ChatGPT在回應長度、事實內容、情感和客觀性方面與CDC相似,但有些事實不正確且缺乏參考資料。ChatGPT在生育知識上表現較好,但在引用來源和提供準確信息方面有限制。建議ChatGPT可提供臨床查詢回應,但需注意資訊準確性。 PubMed DOI

研究比較三款大型語言模型在乳癌臨床上的表現,結果指出GPT-4.0在反饋質量、相關性和應用性方面表現最佳,勝過GPT-3.5和Claude2。GPT-4.0提供更詳盡的反饋,在各臨床領域表現優異,尤其在心理社會支持和治療決策方面。研究強調LLMs的潛力,特別是GPT-4.0,在乳癌臨床應用上的重要性,並呼籲在醫療環境中持續優化和評估準確性。 PubMed DOI

人工智慧和大型語言模型可輔助急診室運作,幫助醫生判斷病人是否需要住院。一項使用紐約市醫院真實數據的研究發現,GPT-4模型在預測急診病人入院情況方面表現優異。建議大型語言模型可成為醫療決策支援工具,進一步改進以提高效能。 PubMed DOI

研究比較了GPT-4與傳統監督式模型在臨床註記中提取資訊的表現,結果顯示GPT-4在乳癌病理報告分類上表現優異,甚至超越其他LLMs和監督式模型。GPT-4的零-shot分類能力對標籤不平衡的任務特別有效。雖然LLMs減少了標註需求,但簡單模型配合大量標註資料也能達到相當效果。GPT-4有潛力加速臨床自然語言處理研究,減少標註需求,促進臨床研究中使用自然語言處理變數。 PubMed DOI

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究評估了AI語言模型ChatGPTv4在卵巢儲備不足(DOR)臨床指引中的表現,為期兩個月。研究結果顯示,ChatGPTv4在是非題的回答準確率達100%,多選題準確率從98.2%提升至100%。開放式回答的準確性和完整性也顯著改善,顯示出其在生殖內分泌學中作為可靠AI工具的潛力,能增強臨床決策和指引發展。不過,研究也指出受控環境的限制,可能無法完全反映真實臨床互動。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分,結果顯示GPT-4的平均得分為79.31,與住院醫師的得分相當,顯示其表現優異。特別是在婦產科問題上,GPT-4的得分高達90.22,顯示其在該領域的強大能力。研究強調,雖然LLMs如GPT-4展現出潛力,但仍需注意其局限性,應作為人類專業知識的輔助工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在分析乳腺癌病理報告的有效性,特別是識別病理完全反應(pCR)。研究者使用兩種方法:提取不同變壓器模型的嵌入和微調GPT-2模型,分析351名接受新輔助化療的女性患者。優化後的結果顯示,敏感度達95.3%,陽性預測值90.9%,F1分數93.0%。這顯示LLMs在提取臨床數據上優於傳統機器學習模型,並強調其在改善病人護理和乳腺癌管理的潛力,但仍需進一步驗證以確保結果的可靠性。 PubMed DOI

這項研究評估了ChatGPT-4在生殖醫學問題上的表現,使用醫師考試資料庫和治療指導方針的查詢。三位專家根據相關性、準確性、完整性和可理解性進行評分。結果顯示,ChatGPT-4在該領域知識豐富,相關性和可理解性良好,但多選題的準確率僅為63.38%。專家評分差異明顯,其中一位專家評分較高。雖然它提供了實用建議和對指導方針的理解,但對地區性差異的知識仍有不足。總體來看,它可能成為生殖醫學中對患者和醫師的有用輔助工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在識別孕婦臨床筆記中的住房不安全性方面的效果。主要發現顯示,GPT-4在識別住房不穩定案例上表現優於GPT-3.5,回憶率達0.924,超過人類抽取者的0.702。雖然GPT-4的精確度低於人類,但在去識別筆記中略有提升。研究建議,雖然手動抽取準確性較高,LLMs如GPT-4提供了可擴展且具成本效益的選擇,適合半自動化抽取,但仍需人類審查以避免錯誤解釋。 PubMed DOI