原始文章

這項研究評估了兩個AI聊天機器人,ChatGPT和ChatSonic,針對腹腔鏡修補腹股溝疝氣的問題所提供的回答質量。研究者提出十個問題,並由兩位外科醫生使用全球質量評分(GQS)和修改版的DISCERN評分來評估。結果顯示,ChatGPT的回答質量較高,獲得了良好的評分,而ChatSonic的表現稍遜。雖然兩者都有潛力,但在可靠性和質量上的不一致性,顯示在臨床使用前仍需進一步驗證。 PubMed DOI


站上相關主題文章列表

這項研究旨在評估ChatGPT對於處理腹股溝疝氣的詢問所回答的準確性和適用性。 PubMed DOI

研究比較了不同AI聊天機器人在正顎手術中的表現,結果顯示回答品質高、可靠性佳,但易讀性需高學歷。ChatGPT-4有創意,OpenEvidence則回答相似。儘管聊天機器人提供高品質答案,仍建議諮詢專業醫師。 PubMed DOI

這個研究旨在評估ChatGPT對於處理腹壁疝氣相關問題的回應的準確性和適用性,因為有必要驗證AI模型在醫學主題上提供的資訊可靠性。 PubMed DOI

研究比較了ChatGPT-3.5和Google Bard在回答血管手術相關問題時的表現,發現ChatGPT的回答更準確完整,易讀且適合大專程度;Bard則適合高中程度但品質較低。ChatGPT提供較長回答,顯示在血管手術病人教育上有潛力,但仍需進一步研究改進。 PubMed DOI

這項研究探討了開放存取的人工智慧軟體ChatGPT在回答與骨科手術相關的病人問題的準確性。研究聚焦於六種手術,包括前交叉韌帶重建和全髖關節置換等。研究者向ChatGPT提出標準問題,並將其回答與專家意見比較,結果顯示平均得分為2.43,顯示與專家意見有一定一致性。研究指出,ChatGPT可能成為病人了解手術選擇的有用工具,但仍需進一步研究以驗證結果並探討其在外科實踐中的應用。 PubMed DOI

對於ChatGPT在腹股溝疝氣修補手術的建議評估,專家與非專家的回應質量差異明顯。專家的評分較低(中位數2),而非專家的評分較高(中位數2),且這差異具統計意義(p < 0.001)。此外,聊天機器人提供的參考資料中,有一半是虛假的。儘管如此,受訪者對神經網絡在臨床決策中的潛力持樂觀態度,並普遍反對限制其醫療應用。因此,建議不要將大型語言模型作為臨床決策的主要資訊來源。 PubMed DOI

這項研究評估了四種自然語言處理(NLP)模型——ChatGPT 3.5、ChatGPT 4、Bard 和 Claude 2.0——在腹股溝疝氣管理方面的回應準確性與質量。六位疝氣外科醫生使用李克特量表評分,結果顯示相關性高(4.76),但完整性(4.11)和準確性(4.14)較低。ChatGPT 4 在準確性上表現最佳。可讀性評估顯示,無一文件符合美國醫學會標準,ACS 文件在可讀性和教育質量上得分最高。總體而言,雖然NLP提供了相關資訊,但可讀性和教育質量仍需改善,外科醫生應注意這些工具的優缺點。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究評估了ChatGPT提供的腹主動脈瘤(AAA)資訊質量,並與澳洲健康指導(HDA)進行比較。研究發現,ChatGPT的回應臨床上適當,但可讀性較高,達到大學水平,而HDA則在10到12年級。雖然ChatGPT的回應通常更易理解,但可行性得分較低,且行動建議不夠明確。總體來看,ChatGPT可作為病人教育的工具,但需改進以提升其幫助病人做出知情決策的能力。 PubMed DOI