原始文章

這項研究評估了四種自然語言處理(NLP)模型——ChatGPT 3.5、ChatGPT 4、Bard 和 Claude 2.0——在腹股溝疝氣管理方面的回應準確性與質量。六位疝氣外科醫生使用李克特量表評分,結果顯示相關性高(4.76),但完整性(4.11)和準確性(4.14)較低。ChatGPT 4 在準確性上表現最佳。可讀性評估顯示,無一文件符合美國醫學會標準,ACS 文件在可讀性和教育質量上得分最高。總體而言,雖然NLP提供了相關資訊,但可讀性和教育質量仍需改善,外科醫生應注意這些工具的優缺點。 PubMed DOI


站上相關主題文章列表

這項研究旨在評估ChatGPT對於處理腹股溝疝氣的詢問所回答的準確性和適用性。 PubMed DOI

這個研究旨在評估ChatGPT對於處理腹壁疝氣相關問題的回應的準確性和適用性,因為有必要驗證AI模型在醫學主題上提供的資訊可靠性。 PubMed DOI

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育,例如腰椎間盤突出。研究發現,這些AI回答腰椎間盤突出的問題時,準確性和清晰度有差異,需要改進。未來應該專注於提升AI模型,以增進患者和醫師之間的溝通。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在回答腰椎間盤突出合併神經根症的臨床問題時的表現。結果顯示,ChatGPT-3.5的準確率為47%,而ChatGPT-4.0提升至67%。雖然兩者都提供了補充資訊,但ChatGPT-4.0的補充資訊較少。特定方面如定義和病史檢查兩者皆達100%準確率,但在診斷測試上,3.5為0%,4.0則為100%。整體來看,ChatGPT-4.0的表現優於3.5,但醫師仍需謹慎使用,以防錯誤資訊。 PubMed DOI

對於ChatGPT在腹股溝疝氣修補手術的建議評估,專家與非專家的回應質量差異明顯。專家的評分較低(中位數2),而非專家的評分較高(中位數2),且這差異具統計意義(p < 0.001)。此外,聊天機器人提供的參考資料中,有一半是虛假的。儘管如此,受訪者對神經網絡在臨床決策中的潛力持樂觀態度,並普遍反對限制其醫療應用。因此,建議不要將大型語言模型作為臨床決策的主要資訊來源。 PubMed DOI

這項研究探討了可獲得的醫療資訊對患者的重要性,並評估了兩個AI工具,ChatGPT和Google Gemini,針對特定醫療狀況(如深靜脈血栓、壓瘡和痔瘡)的可理解性。結果顯示,ChatGPT的內容需要較高的教育水平才能理解,且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異,但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

這項研究評估了ChatGPT在泌尿婦科手術知情同意方面的回答準確性與可讀性。五位專家醫師針對四種手術進行評估,結果顯示質量中等,DISCERN中位數評分為3,後恥骨中尿道吊帶得分最高。準確性方面,44%的回答被認為「正確且充分」,但也有不少回答含有誤導性或不正確的信息,特別是關於手術好處和替代方案。可讀性達到研究生水平,顯示在醫療環境中需對其輸出進行專業審查。 PubMed DOI

這項研究比較了ChatGPT 4o和ChatGPT 4o mini在診斷和治療伴隨神經根症狀的腰椎間盤突出(LDH)的能力。研究評估了21個問題,並由五位骨科醫生檢視兩者的回答準確性和可靠性。結果顯示,ChatGPT 4o在分析53名病人的影像時,識別LDH的準確率達0.81,且與醫生的協議程度為中等。雖然兩者都有強大的臨床支援能力,但ChatGPT 4o的回答更全面。不過,內容的複雜性仍需改進,以提升病人的理解和減少焦慮。 PubMed DOI

這項研究評估了 ChatGPT 4.0 在提供腹主動脈瘤(AAA)資訊的準確性,針對患者和醫生的問題進行了測試。結果顯示,對患者問題的平均準確度為 4.4,與血管外科學會(SVS)的指導方針一致性也不錯,平均評分為 4.2。不過,對於 AAA 破裂風險的問題,表現僅為中等,平均評分 3.4。整體來看,ChatGPT 4.0 在 AAA 資訊上表現良好,對患者教育和醫生知識提升有潛在幫助。 PubMed DOI

這項研究評估了兩個AI聊天機器人,ChatGPT和ChatSonic,針對腹腔鏡修補腹股溝疝氣的問題所提供的回答質量。研究者提出十個問題,並由兩位外科醫生使用全球質量評分(GQS)和修改版的DISCERN評分來評估。結果顯示,ChatGPT的回答質量較高,獲得了良好的評分,而ChatSonic的表現稍遜。雖然兩者都有潛力,但在可靠性和質量上的不一致性,顯示在臨床使用前仍需進一步驗證。 PubMed DOI