原始文章

這項研究評估了GPT-4在分析成人獲得性埋藏陰莖(AABP)患者訪談的有效性,並與人類研究者進行比較。研究發現,人類在95%的訪談中識別出「尿路問題」,而GPT-4為75%。在人類提到的「性問題」中,95%被提及,GPT-4則為80%。雖然兩者都強調「心理健康問題」,但人類更常提到「憂鬱」。人類與GPT-4的編碼一致性為中等,顯示AI在質性研究中有輔助潛力,未來可探索提升AI分析能力的方法。 PubMed DOI


站上相關主題文章列表

研究比較了大型語言模型GPT-3.5和不同H指數的醫學研究人員在寫重症監護臨床研究問題背景的能力。來自20個國家的研究人員評估後發現,GPT-3.5在背景部分表現不錯,但在區分人類內容方面稍遜。總結來說,GPT-3.5能夠創造出和高H指數醫學研究人員相當的背景研究內容。 PubMed DOI

這項研究比較了使用臨床案例來診斷和分類健康狀況時,人工智慧GPT-4與醫師的準確性。結果顯示,GPT-4和醫師在診斷準確性和分類適當性方面表現相似。GPT-4的表現不因患者種族和族裔而有所不同。這表明GPT-4在改善醫療系統中患者診斷和分類效率方面可能會有所幫助。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

研究指出GPT-4在辨識胃腸道出血方面表現優異,準確率高達94.4%,比ICD碼更好。與人工審查相比,表現相當或稍微差一點。GPT-4效率高、成本低,可快速分析數據,是臨床事件分類的可靠替代方案,有助於提升臨床研究品質。未來研究應該探討高效人工智慧模型在臨床數據處理的可擴展性、模型調整和道德影響。 PubMed DOI

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果,結果發現Google Bard易讀性高,但適當性稍差;ChatGPT-3.5和ChatGPT-4在適當性表現較好,尤其ChatGPT-4更穩定。這些模型被認為無害,對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力,但仍需改進和考慮道德問題,未來研究應著重於安全整合策略。 PubMed DOI

研究評估了GPT-4在腎臟手術後併發症的表現,結果顯示檢測準確率高,但解釋Clavien-Dindo分類和特定機構的困難。GPT-4需進一步改進在解釋複雜醫學信息方面。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

這項研究評估了GPT-4在泌尿科門診生成出院信件的效果,並與初級醫師進行比較。出院信件對於護理連續性很重要,但撰寫過程常常耗時。研究中,GPT-4根據五個虛構的電子病歷撰寫信件,並由初級醫師用問卷評估其質量。結果顯示,GPT-4在資訊提供上表現優於初級醫師,且沒有產生虛假信息。雖然在清晰度和滿意度上無顯著差異,但GPT-4的信件質量與人類相當。整體而言,GPT-4可望提升醫療文檔的效率與一致性。 PubMed DOI

這項研究探討了ChatGPT-4在文獻回顧中的有效性,特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧,並根據準確性、反應時間等標準進行比較。結果顯示,GPT-4在反應時間和知識廣度上表現優異,但在深入理解和情境相關性上較弱。研究強調,雖然GPT-4可作為初步工具,但仍需專家評估以提升學術成果的準確性和情境豐富性,特別是在醫學研究領域。 PubMed DOI