原始文章

這項研究比較了ChatGPT-3.5和4在職業風險預防選擇題的表現,GPT-3.5正確率56.8%,GPT-4為73.9%。兩者在專業題目上都容易出錯,且錯誤類型相似。雖然GPT-4表現較好,但在職業健康領域應用上仍有限。建議持續驗證、訓練和針對地區調整,以提升可靠度。 PubMed DOI


站上相關主題文章列表

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

這項研究評估了ChatGPT3.5和ChatGPT4在生成乳房篩檢病人資訊表的表現。雖然兩者提供了一些有用資訊,但準確性和清晰度都不理想。ChatGPT4在可理解性和可行性上表現較好,但仍有明顯遺漏。整體而言,這兩個版本被視為不可靠的健康資訊來源,特別是對健康素養較低的人士。這引發了對乳房篩檢參與可能造成的負面影響的擔憂,並強調醫療教育者需針對AI工具的錯誤資訊進行處理。 PubMed DOI

本研究評估了ChatGPT(GPT-4V)在日本醫療資訊技術人員(HCIT)認證考試中的表現。經過三年,分析了476道考題,結果顯示ChatGPT的正確回答率達84%,成功通過考試。簡單選擇題的表現優於多選題,且帶圖片的問題和需要計算的題目正確率較低。總體而言,ChatGPT具備HCIT認證所需的基本知識和技能,顯示其在醫療資訊領域的潛力。 PubMed DOI

這項研究評估了ChatGPT在Python程式碼解釋方面的有效性,特別作為數據分析工具。研究使用全國住院病人樣本的子集,重點在數據管理、描述性統計和推論統計。主要發現包括: 1. **數據處理和分類**:ChatGPT能準確重新分類和呈現數據。 2. **描述性統計**:提供正確的均值、標準差等計算。 3. **推論統計**:準確率隨提示具體性提升,從32.5%到92.5%不等。 結論認為,ChatGPT對具備基本統計知識的研究人員是個有價值的工具,但需謹慎構建提示並進行監督,以確保結果準確。 PubMed DOI

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果,並與人類分診人員進行比較。分析了2,658名病人的數據,結果顯示AI與人類的分診協議程度較低(kappa = 0.125)。在人類分診預測30天死亡率和生命救援需求方面,表現明顯優於AI(ROC分別為0.88對0.70及0.98對0.87)。這顯示雖然AI有潛力,但在急診分診中仍不如人類可靠,特別是對高風險病人的評估。 PubMed DOI

這項研究評估了ChatGPT在回答過敏學問題的表現,顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估,結果顯示ChatGPT的整體準確性不錯(平均4.1分),但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤,可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性,並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境,可能會提升其臨床有效性。 PubMed DOI

這項研究發現,ChatGPT-4在有選擇題選項時,答對率超過86%,但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊,但不是真的懂臨床情境。未來如果和專業醫療人員搭配,有機會幫助臨床工作,但還需要更多測試來確保安全和有效。 PubMed DOI

這項研究發現,GPT-4在回答放射治療常見問題時,比GPT-3.5表現更好,但兩者的回答對一般人來說還是太難懂,也有可能出現錯誤資訊。建議在正式用於病人前,還需要加強內容的易讀性和正確性。 PubMed DOI

這項德國研究發現,醫師和醫學生用ChatGPT查職業性肺病資料時,在找有害物質等研究任務上表現較好,也覺得自己專業知識有提升。但在臨床決策(像是否通報職業病)時,自己查資料的答對率反而更高。總結:ChatGPT適合輔助醫學研究,但臨床決策還是不能只靠它。 PubMed DOI

這項研究發現,GPT在為有心理症狀的中風患者設計職能治療方案時,內容太籠統、缺乏細節和專業性,分數偏低。雖然在部分方案設計上有輔助潛力,但目前仍無法取代專業治療師,主要受限於訓練資料不足。 PubMed DOI