原始文章

在婦產科領域,有效的病人諮詢至關重要,尤其是面對西班牙語患者與英語醫療提供者之間的語言障礙。本研究探討大型語言模型(LLMs)是否能生成有效的西班牙語諮詢範本。結果顯示,所有LLMs均生成了熟練的範本,其中Google Bard表現最佳,尤其在內容、質量和全面性上優於其他模型。醫生們表示願意將這些範本納入實踐,未來研究可關注患者的滿意度和治療遵從性。 PubMed DOI


站上相關主題文章列表

深度學習技術在自然語言處理領域有顯著進展,如OpenAI的ChatGPT聊天機器人。儘管在臨床問題上表現出潛力,仍有限制,如訓練數據過時可能導致不準確,無法引用來源或完全理解用戶查詢。使用這些模型需謹慎,確保提供有用資訊並避免造成損害。 PubMed DOI

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現,發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全,Bloomz質量較差。研究強調需持續改進人工智慧工具,確保醫學建議可靠。建議引入GPT-4的自動評估機制,擴展評估範疇。 PubMed DOI

研究比較了三個大型語言模型(LLMs)在談論骨盆器官脫垂(POP)資訊的表現,並拿英國皇家婦產科醫師學院(RCOG)的資料來比較。結果發現,ChatGPT在完整性方面最好,Bing在準確性方面較強。整體而言,ChatGPT表現較好,強調了在傳遞健康資訊時要仔細看LLM的輸出。 PubMed DOI

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果,結果發現Google Bard易讀性高,但適當性稍差;ChatGPT-3.5和ChatGPT-4在適當性表現較好,尤其ChatGPT-4更穩定。這些模型被認為無害,對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力,但仍需改進和考慮道德問題,未來研究應著重於安全整合策略。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)生成的泌尿科病人資訊小冊子(PILs)品質,包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術(TURP)進行評估。結果顯示,PaLM 2的PILs品質最佳,平均得分3.58,且最易閱讀。雖然LLMs能減輕醫療人員負擔,但內容仍需臨床醫師審查,且閱讀水平偏高,顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 PubMed DOI

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示,這兩個模型對於一些常見問題的回答大多準確,如子宮頸癌篩檢和 BRCA 相關問題。然而,面對更複雜的案例時,它們的表現較差,常缺乏對地區指導方針的了解。儘管如此,這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出,LLMs 雖無法取代專業醫療建議,但可作為輔助工具,提供資訊和支持。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分,結果顯示GPT-4的平均得分為79.31,與住院醫師的得分相當,顯示其表現優異。特別是在婦產科問題上,GPT-4的得分高達90.22,顯示其在該領域的強大能力。研究強調,雖然LLMs如GPT-4展現出潛力,但仍需注意其局限性,應作為人類專業知識的輔助工具。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT 4.0 和 Gemini 1.0 Pro,在生成病人指導和教育材料的效果。研究發現,兩者提供的信息一致且可靠,但在藥物過期和處理指導上有所不足。ChatGPT 4.0 在可理解性和可行性上表現較佳,且其輸出可讀性較高。整體來看,這些模型能有效生成病人教育材料,但仍需醫療專業人員的監督與指導,以確保最佳實施。 PubMed DOI