原始文章

這項研究探討了大型語言模型聊天機器人Gemini在醫療診所編碼和計費的應用潛力。分析139份去識別的病人就診紀錄後,Gemini在編碼上達到68%的一致率,Cohen's kappa係數為0.586,顯示中等可靠性。術後就診準確率最高(98%),新就診最低(48%)。Gemini有時建議的計費等級與醫生實際計費不符,且在某些編碼上出現錯誤。整體而言,研究顯示Gemini等AI工具有助於提升計費效率和準確性,並可能降低行政成本。 PubMed DOI


站上相關主題文章列表

研究評估聊天機器人回答醫師問題的準確度和完整性,結果顯示資訊準確但完整性有待提升。強調聊天機器人提供醫學資訊的潛力,也呼籲進一步研究和開發以解決限制性問題,確保可靠性。 PubMed DOI

研究比較了不同AI聊天機器人在正顎手術中的表現,結果顯示回答品質高、可靠性佳,但易讀性需高學歷。ChatGPT-4有創意,OpenEvidence則回答相似。儘管聊天機器人提供高品質答案,仍建議諮詢專業醫師。 PubMed DOI

研究比較了三個大型語言模型(ChatGPT-3.5、ChatGPT-4和Google Gemini)在分析視網膜脫落病例並提出手術計劃的表現。經過50個病例的分析後發現,ChatGPT-4與專家外科醫師的意見最接近,ChatGPT-3.5次之,Google Gemini表現最差。ChatGPT模型也獲得了比Google Gemini更高的全球品質分數。ChatGPT-4是唯一建議採用聯合晶體玻璃切割手術方法的模型。總體而言,ChatGPT模型提供了比Google Gemini更準確和精確的建議。 PubMed DOI

研究評估人工智慧對手部手術問題回答的正確度,透過ChatGPT提問。兩位手外醫檢視回答,發現多數正確,但意見有分歧。研究顯示語言模型可能影響患者觀感,需確保安全並避免錯誤。外科醫師與AI開發者合作,提供最佳照護。 PubMed DOI

研究比較了OpenAI的ChatGPT和Google的Gemini在手部受傷分類和手術治療建議方面的表現。Gemini在手部受傷分類能力表現優異,正確率達70.6%,而ChatGPT則為0.87。ChatGPT在手術建議方面較敏感,但特異性較Gemini低。Gemini也展現更高的回應可複製性。研究顯示大型語言模型在醫學決策上有潛力,Gemini通常優於ChatGPT。 PubMed DOI

研究評估了OpenAI的ChatGPT-4和Google的Gemini Ultra大型語言模型在急救醫療服務(EMS)質量保證的應用。大型語言模型有潛力自動化部分病人護理報告處理,減輕醫務主任的工作量。人類審查者表現可靠,ChatGPT-4在某些方面表現不錯,但不夠穩定。Gemini Ultra表現不佳。建議將它們當作輔助工具,並加強培訓和整合,以提升質量保證流程的效能。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究比較了AI聊天機器人(ChatGPT和Google Gemini)生成的病患教育材料與傳統病患資訊手冊(PILs)在眼科手術局部麻醉方面的效果。專家評估發現,雖然AI提供的語言較簡單且易懂,但傳統PILs在完整性和可讀性上表現更佳。統計分析顯示,ChatGPT在準確性和完整性上稍勝於Google Gemini,但兩者都不及PILs。值得一提的是,Google Gemini的情感語調最為正面。研究結果顯示,AI聊天機器人可作為病患教育的輔助工具,幫助提升病患的理解與決策能力。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別顱面外科手術的CPT代碼的有效性,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時,尤其在專業編碼人員短缺的情況下,研究旨在評估這些AI模型的效率和準確性。結果顯示,雖然整體準確性差異不大,但ChatGPT 4.0在複雜代碼上表現較佳,而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔,並提升CPT編碼的資源效率,支持將其整合進臨床流程。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Claude—對鼻整形手術常見問題的回答。七位經驗豐富的整形外科醫生根據準確性、質量、完整性等指標進行評分。結果顯示,ChatGPT在準確性和整體質量上表現較佳,但完整性不如Gemini和Claude。三者的回應普遍被評為中立且不完整,醫學術語使用普遍,且可讀性達大學程度。研究強調聊天機器人生成的醫療資訊需謹慎檢查,但仍具提升醫療教育的潛力。 PubMed DOI