LLM 相關三個月內文章 / 第 14 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了十個熱門AI聊天機器人(如GPT-4)的女性尿失禁患者資訊的可讀性與品質。研究使用特定提示,透過EQIP技術和QUEST工具來評估內容品質,並計算八種可讀性公式的平均值。結果顯示,聊天機器人之間的品質差異明顯,Gemini得分最高,Grok最低。可讀性方面,Grok最易讀,Mistral則最複雜。這些結果顯示,AI聊天機器人需改進,以提升女性尿失禁患者資訊的可讀性與品質。 相關文章 PubMed DOI

「不造成傷害」的原則源自希波克拉底倫理學,仍是醫學的基本準則,尤其在AI迅速發展的當下。AI影響醫療的診斷、治療、研究等各方面,臨床醫師需理解AI的基本原則,以批判性評估AI結果。文章探討AI對醫患關係的影響,並提出將AI整合進臨床實踐的建議,強調倫理原則如仁慈和公正的重要性。建議包括適當的模型訓練和醫療界參與AI發展,以確保倫理優先於商業利益。 相關文章 PubMed DOI

這項初步研究探討了大型語言模型(LLMs),特別是ChatGPT 3.5和ChatGPT-4,在心智理論(ToM)方面的能力,並與自閉症譜系障礙(ASD)及典型發展(TD)個體進行比較。研究發現: 1. 兩個LLMs在理解心理狀態的準確性上高於ASD組,但ChatGPT-3.5在複雜心理狀態上表現不佳。 2. ChatGPT-3.5在情感狀態識別上低於TD個體,尤其是負面情緒,但與ASD組相似。ChatGPT-4有所改善,但仍難以識別悲傷和憤怒。 3. 兩者的對話風格冗長且重複,類似高功能自閉症個體。 研究顯示LLMs在理解心理和情感狀態的潛力及其局限性,對ASD的臨床應用有影響。 相關文章 PubMed DOI

這篇回顧探討大型語言模型(LLMs)在病人教育和參與中的應用,分析了201項主要來自美國的研究,並提出六個關鍵主題,包括生成病人教育材料、解釋醫療資訊、提供生活方式建議等。研究顯示,LLMs能有效生成易懂的內容,改善病人與醫療提供者的溝通,但也存在可讀性、準確性及偏見等問題。未來需進一步研究以提升LLM的可靠性,並解決其在醫療應用中的倫理挑戰。 相關文章 PubMed DOI

這項研究比較了Google和ChatGPT(3.5版)對肩袖手術的常見問題及回答。使用「rotator cuff repair」作為搜尋詞,發現兩者只有30%的問題相似。Google的答案多來自醫療實踐(40%),而ChatGPT則主要依賴學術來源(90%)。在數字問題上,兩者的相似答案也僅有30%。大部分回答被評為「優秀」或「滿意」,但Google有一個回答需中等澄清,ChatGPT則有兩個不滿意的回答。整體而言,兩者的回答質量良好,但ChatGPT顯示出潛在的不準確性,強調了評估AI醫療信息質量的重要性。 相關文章 PubMed DOI

這篇文章探討如何利用大型語言模型(LLMs)來分析和預測公民的政策偏好,特別是針對巴西2022年總統候選人的政府計畫。研究採用訓練-測試交叉驗證,結果顯示LLMs在預測個人政治選擇上表現優於傳統的投票假設,且在估算整體偏好時也更準確。這項研究顯示LLMs能捕捉複雜的政治細微差異,為未來的數據增強研究提供了新方向,並與參與式治理和數位創新主題相關聯。 相關文章 PubMed DOI

您的研究強調病人教育材料(PEMs)可讀性的重要性,這對提升病人依從性和療效至關重要。透過比較小兒皮膚科學會(SPD)的西班牙語PEMs與AI工具如ChatGPT 4.0和Google Gemini生成的材料,您發現AI生成的內容在六年級水平上可讀性顯著更佳,顯示AI能產出更易理解的教育內容,可能改善病人理解和療效。不過,您也提到仍需進一步研究來驗證這些結果。 相關文章 PubMed DOI

人類表型本體(HPO)對於臨床文本數據的註解非常重要,但大型語言模型(LLMs)在使用HPO術語時表現不佳,可能因為缺乏合適的術語。在生物醫學聯結註解黑客松第八屆(BLAH8)中,我們提取了23個子類別的HPO術語,並識別主要屬性。結果顯示,LLMs在缺乏上下文時表現不佳,且HPO術語涵蓋疾病名稱、病況、測試數據及症狀等四大屬性。臨床醫生對本體的使用感到困難,因此需要他們的參與來提升數據質量和理解。 相關文章 PubMed DOI

這篇文章評估了ChatGPT在回答父母關於早期兒童齲齒(ECC)問題的有效性。研究中向ChatGPT 3.5提出80個常見問題,結果顯示其對82.5%的問題提供了「非常有用」或「有用」的答案,整體質量得分為4.3分(滿分5分)。不過,可靠性得分中等到非常好,但可理解性和可行性得分較低,表示回應對父母來說不易理解或採取行動。此外,內容的可讀性也較差,部分回應還包含誤導性或錯誤資訊。總體而言,雖然ChatGPT在提供ECC資訊上有潛力,但在可讀性、可行性和準確性方面仍需改善。 相關文章 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 相關文章 PubMed DOI