LLM 相關三個月內文章 / 第 26 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了ChatGPT在牙齒植體及周圍表型資訊的可靠性與品質。研究透過結構化問卷,讓牙科專業人士使用修訂版全球品質量表(GQS)和DISCERN工具來審查回應。共60名來自口腔外科、牙周病學及一般牙科的參與者參與。雖然各群體評分差異不大,但口腔外科醫生的評分較低。結果顯示,ChatGPT可作為患者獲取牙齒植體資訊的輔助工具,但回應深度不足,建議專業人士謹慎使用AI內容,並協助患者理解。未來研究應探討AI回應的變異性及不同平台的整合潛力。 相關文章 PubMed DOI 推理

最近人工智慧(AI)領域的進展,越來越多地結合大型語言模型(LLMs)與專門工具,如搜尋引擎和模擬器。不過,這些系統多由專家設計,調整過程繁瑣,影響進步速度。為了解決這個問題,我們提出了TextGrad,一個透過反向傳播優化AI系統的靈活框架。它能自動增強系統內部組件,並使用自然語言反饋,應用於解決科學問題、優化治療計畫、設計分子等,為科學家和工程師提供創建生成式AI系統的便利工具。 相關文章 PubMed DOI 推理

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、Gemini 和 Meta AI—在微生物學課程高階問題的表現。研究從大學考試中彙編了60個問題,並由三位教職員評估AI的回應。結果顯示,ChatGPT在大多數能力上優於其他模型,特別是在MI 2、3、5、6、7和8方面;Gemini在MI 1和4方面表現較好,而Meta AI的得分最低。質性評估指出,ChatGPT的回應更詳細,Gemini有時缺少關鍵點,Meta AI則較為簡潔。總體來看,ChatGPT和Gemini在醫學微生物學的複雜問題上表現優於Meta AI。這是首次在微生物學教育中比較這三個LLMs。 相關文章 PubMed DOI 推理

這項研究評估了ChatGPT 4.0在識別德國神經學報告錯誤的效果,並與人類專家比較。分析了十份報告,每份有十個語言錯誤和一個重要內容錯誤。結果顯示,使用第一個提示時,AI的準確率為35%,而第二個提示則達到75%。AI的處理速度明顯快於人類,第一個提示平均102.4秒,第二個209.4秒,人類則需374秒。研究指出,AI能有效協助醫療報告撰寫,且提示設計對結果影響重大。 相關文章 PubMed DOI 推理

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文,並針對遵循情況向模型提問。結果顯示,GPT-4 Turbo的F1分數達0.89,準確率90%;Llama 2經微調後,F1分數提升至0.84,準確率83%。此外,GPT-4 Vision能準確識別參與者流動圖,但在細節檢測上有困難。整體而言,這兩個模型在評估報告遵循方面顯示出潛力,未來開發高效的開源AI-LLM可能會進一步提升準確性。 相關文章 PubMed DOI 推理

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 相關文章 PubMed DOI 推理

假新聞對社會構成重大威脅,因此自動檢測變得非常重要。研究發現,新聞文本內容是關鍵線索。目前的檢測方法雖然有所進步,但仍面臨挑戰,例如小型語言模型(SLM)泛化能力不足、增強外部知識的計算成本高,以及大型語言模型(LLM)常出現錯誤。為了解決這些問題,我們提出了LEKD,結合SLM、外部知識和LLM的優勢,並透過圖的語義感知特徵對齊模組來解決知識矛盾。實驗結果顯示,LEKD的表現超越現有基準。 相關文章 PubMed DOI 推理

這項研究專注於利用先進的檢索增強生成(RAG)系統,結合更新版的膳食補充品知識庫2.0(iDISK2.0),提升膳食補充品資訊的準確性。iDISK2.0整合可信來源的數據並進行清理,提升質量。RAG系統結合生物醫學知識圖譜與大型語言模型,能提供準確的證據回應,解決獨立LLMs的錯誤資訊問題。評估結果顯示,準確率達99%和95%,顯著優於獨立LLMs。未來將擴展至其他生物醫學領域,並透過真實查詢增強評估。 相關文章 PubMed DOI 推理

這項研究探討了一個微調過的GPT-3模型在農村醫療環境中對兒科病例診斷的有效性,因為這些地區專家資源有限。研究分析了路易斯安那州中部的500個兒科就診案例,發現模型準確率達87.3%,敏感度和特異度分別為85%和90%,與兒科醫生的91.3%相當。模型在不同年齡組和常見病症中表現穩定,但對罕見診斷的準確率稍低。總體來說,這個微調的GPT-3模型可作為農村兒科護理的可靠診斷工具,但仍需在不同人群中進一步驗證。 相關文章 PubMed DOI 推理

生成式人工智慧(GenAI)在醫療服務中有潛力,尤其是在臨床環境。不過,實際臨床的複雜性需要謹慎且基於證據的方法來確保AI的安全與有效性。本研究將系統性評估四個知名的GenAI模型(Claude 2、Gemini Pro、GPT-4.0及一個自訂的GPT-4.0聊天機器人),並針對臨床微生物學和傳染病領域進行分析。評估將由兩組專業醫師進行,使用5點李克特量表來檢視回應的事實一致性、全面性、一致性及潛在醫療危害。研究將提供GenAI在臨床應用的見解,並強調制定倫理指導方針的重要性。 相關文章 PubMed DOI 推理