原始文章

這項研究指出,使用臨床醫師撰寫的標準案例小品來評估症狀評估應用程式(SAAs)存在限制。研究提出了一種新方法,稱為RepVig框架,透過真實的線上病患互動來抽取案例小品,更能反映實際的自我分診情況。結果顯示,這些具代表性的案例小品能提升準確性與安全性,並且在一般民眾及大型語言模型(如GPT-4和Claude)中,過度分診的傾向也較高。研究建議應用這種更具情境相關性的抽樣方法來評估SAAs。 PubMed DOI


站上相關主題文章列表

醫學案例在教學中很重要,但常缺乏多元性且過於簡化。利用人工智慧(AI)能幫助創建更多元且包容的案例。這研究使用ChatGPT和Adobe Firefly beta來開發案例,加速創建速度並提高多樣性,雖然有些代表性受影響。這些案例將分享為開放教育資源,讓教育工作者能獨立創建多樣案例。 PubMed DOI

2022年11月推出的ChatGPT原型讓人工智慧更容易取得,但一項研究發現,使用加拿大分級和急性評估量表進行患者分類的急診醫師發現ChatGPT不可靠。研究顯示,ChatGPT在不同情境下的表現不穩定,可能無法在重要任務中提供準確和一致的資訊。 PubMed DOI

一項研究比較了使用 GPT-4 大型語言模型(LLM)作為醫師診斷輔助工具與傳統資源的影響。這項研究涉及 50 名醫師,發現與傳統資源相比,GPT-4 在診斷推理方面並未顯著改善,但在某些臨床推理方面表現較佳。該研究指出了增強醫師與人工智慧在臨床實踐中合作的潛力。 PubMed DOI

研究發現ChatGPT在辨識非典型疾病表現上有一定準確性,但對高度非典型案例的表現較差。儘管對典型和輕微非典型案例有潛力,但隨著非典型性增加,表現也下降。研究強調AI系統需結合多樣語言能力和臨床情境,以提升現實世界的診斷效果。 PubMed DOI

研究目的是評估使用RAG和LLMs(如GPT模型)來改善急診分流流程,提升護理一致性。通過模擬情境測試,發現搭配RAG的GPT-3.5模型在分流準確性上表現優異,可達70%正確率,並將低分流率降至8%。整合這兩者可提高急診評估的精確性和一致性,但仍需在實際醫療環境中驗證。 PubMed DOI

這項研究評估了AI語言模型GPT-3在診斷和分診的表現,並與一般人和醫生進行比較,使用了48個醫療案例。結果顯示,GPT-3在88%的案例中準確診斷,優於一般人(54%),但低於醫生(96%)。在分診準確性方面,GPT-3達70%,接近一般人(74%),但仍低於醫生(91%)。雖然GPT-3對預測的信心合理,但在急迫案例中準確性下降,偶爾會將緊急案例降為次要。總體而言,GPT-3的診斷表現不錯,但分診效果仍不如醫生。 PubMed DOI

這項研究評估了ChatGPT-4生成的臨床小案例在醫學教育中的效用與準確性。調查於2024年1月進行,71位專注於一般內科的日本醫師評估了18個日文AI醫療案例。結果顯示,資訊質量和準確性獲得滿意評分,但在內容質量和相關性上存在顯著變異。參與者建議改進身體檢查結果的生成、使用更自然的語言及提高術語準確性。總體而言,研究認為ChatGPT-4在醫學教育中有潛力,但仍需加強細節準確性和真實性,並強調專家監督的重要性。 PubMed DOI

這項研究探討了使用生成式人工智慧GPT-4-0613來創建日文臨床小案例,評估其醫學和語法準確性。根據特定提示生成的202個小案例中,118個被認為「足夠有用且可立即使用」,78個「部分不足需修改」,只有6個在醫學準確性上被評為「不足」。語言準確性方面,142個案例得分較高,僅4個不足。總體來看,97%的案例經醫療專業人員確認後被視為實用,顯示人工智慧能顯著簡化臨床案例的創建過程。 PubMed DOI

這項研究探討了ChatGPT在模擬災難病人分診的有效性,使用了391個病人案例和九個提示進行測試,總共產生了35,190次模擬分診。結果顯示,99.7%的查詢得到了有效的START評分,但變異性顯著。準確性為63.9%,過度分診率32.9%,不足分診率3.1%。研究結論指出,ChatGPT在醫療分診中表現不佳,提醒在臨床使用AI工具時需謹慎,並強調進行嚴謹的統計評估的重要性。 PubMed DOI

這項研究評估了GPT-4在急診病人分診中所給的緊急嚴重指數(ESI)分數的準確性,並與經驗豐富的醫護人員進行比較。研究涵蓋100名急診病人,結果顯示GPT-4的中位數ESI分數為2.0,而人類評估者為3.0,顯示出顯著差異(p < 0.001),顯示GPT-4可能低估病人嚴重程度。雖然GPT-4提供了新方法,但其低估的傾向顯示在臨床應用中需進一步調整,強調謹慎整合AI技術的重要性。 PubMed DOI