LLM 相關三個月內文章 / 第 55 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了GPT-4在超音波影像識別甲狀腺結節的表現,並與住院醫師進行比較。分析了1,145張影像,結果顯示GPT-4對惡性結節的正確識別率為58.07%,良性結節為66.86%;而住院醫師則分別為73.89%和74.66%。在統計上,GPT-4的準確性顯著低於醫師,尤其是對小於1公分的結節。總體來看,GPT-4在甲狀腺結節分類上有潛力,但仍需改進。 相關文章 PubMed DOI 推理

本研究探討大型語言模型(LLMs)在生成日本物理治療師國家執照考試多選題的應用,特別是定制的ChatGPT模型「Physio Exam GPT」。研究利用第57和58屆考試的340道題目,生成的題目在準確率上達到100%。評估結果顯示,題目的清晰度、臨床相關性及難度等方面表現良好,平均分數在7.0到9.8之間。研究顯示LLMs在非英語環境中能有效生成高品質教育資源,對教育工作者有幫助,並為未來的應用奠定基礎。 相關文章 PubMed DOI 推理

將大型語言模型和生成式人工智慧應用於醫療領域,帶來新的法律風險,主要包括算法偏見和數據安全問題,可能侵犯個人權益。此外,醫療數據的管理和商業化也引發所有權爭議。隨著人工智慧的深入應用,醫療傷害的責任判定變得更複雜。為應對這些挑戰,需實施算法審查、加強數據管理、明確數據所有權及建立授權協議,並根據具體過失公平分配責任。 相關文章 PubMed DOI 推理

梅約內視鏡子評分(MES)是評估潰瘍性結腸炎(UC)黏膜活動的重要工具。本研究探討了人工智慧模型ChatGPT-4在根據MES評估UC患者內視鏡影像的有效性。專家小組審查了內視鏡影像並給予等級,只有一致評分的影像才進一步分析。結果顯示,ChatGPT-4的準確率為78.9%,而IBD專家的準確率為81.1%,兩者差異不顯著(P = 0.71)。研究表明,ChatGPT-4能有效評估UC患者的黏膜炎症,表現與專家相當,且無需額外調整。 相關文章 PubMed DOI 推理

這項研究探討了人工智慧,特別是ChatGPT-4TM,在提升甲狀腺多學科團隊(MDT)結果準確性方面的潛力。研究涵蓋30個甲狀腺病例,結果顯示MDT的判斷與英國甲狀腺協會的指導方針完全一致,達到100%的符合率。然而,AI生成的結果與MDT相比,只有67%的高度一致性,13%的病例則完全不一致。這顯示AI雖能簡化決策過程,但在缺乏臨床醫師驗證的情況下,仍無法完全依賴。 相關文章 PubMed DOI 推理

這項研究評估了一般醫學科實習生在識別AI生成內容不準確性方面的能力,特別是使用ChatGPT-4o。研究發現,ChatGPT-4o的準確率為80.8%,但在專業情境中僅57.0%。142名實習生識別了87個AI幻覺,平均檢測準確率只有55.0%。影響檢測錯誤的因素包括反應時間短、自我評估AI理解能力高及頻繁使用AI工具。結論強調,實習生在臨床情境中識別AI錯誤的挑戰,需加強醫學教育中的AI素養與批判性思維。 相關文章 PubMed DOI 推理

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 相關文章 PubMed DOI 推理

這項研究評估了ChatGPT在牙齒植體及周圍表型資訊的可靠性與品質。研究透過結構化問卷,讓牙科專業人士使用修訂版全球品質量表(GQS)和DISCERN工具來審查回應。共60名來自口腔外科、牙周病學及一般牙科的參與者參與。雖然各群體評分差異不大,但口腔外科醫生的評分較低。結果顯示,ChatGPT可作為患者獲取牙齒植體資訊的輔助工具,但回應深度不足,建議專業人士謹慎使用AI內容,並協助患者理解。未來研究應探討AI回應的變異性及不同平台的整合潛力。 相關文章 PubMed DOI 推理

最近人工智慧(AI)領域的進展,越來越多地結合大型語言模型(LLMs)與專門工具,如搜尋引擎和模擬器。不過,這些系統多由專家設計,調整過程繁瑣,影響進步速度。為了解決這個問題,我們提出了TextGrad,一個透過反向傳播優化AI系統的靈活框架。它能自動增強系統內部組件,並使用自然語言反饋,應用於解決科學問題、優化治療計畫、設計分子等,為科學家和工程師提供創建生成式AI系統的便利工具。 相關文章 PubMed DOI 推理

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、Gemini 和 Meta AI—在微生物學課程高階問題的表現。研究從大學考試中彙編了60個問題,並由三位教職員評估AI的回應。結果顯示,ChatGPT在大多數能力上優於其他模型,特別是在MI 2、3、5、6、7和8方面;Gemini在MI 1和4方面表現較好,而Meta AI的得分最低。質性評估指出,ChatGPT的回應更詳細,Gemini有時缺少關鍵點,Meta AI則較為簡潔。總體來看,ChatGPT和Gemini在醫學微生物學的複雜問題上表現優於Meta AI。這是首次在微生物學教育中比較這三個LLMs。 相關文章 PubMed DOI 推理