原始文章

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI


站上相關主題文章列表

這項研究探討了大型語言模型(LLMs),如ChatGPT-4o、ChatGPT-3.5和Google Gemini,在輔助放射學研究中的效能。進行了兩個實驗: 1. **生物統計學與數據視覺化**:測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳,正確回答7個問題,且生成的程式碼錯誤較少。 2. **深度學習**:評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼,並透過互動修正錯誤。 總體而言,LLMs對放射學研究有幫助,但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

這項研究探討大型語言模型(LLMs)在診斷神經腫瘤方面的潛力,特別是在不斷變化的WHO中樞神經系統腫瘤指導方針下。研究測試了ChatGPT-4o、Claude-3.5-sonnet和Llama3在30個神經病理案例中的表現。結果顯示,結合檢索增強生成(RAG)後,LLMs在識別腫瘤亞型上達到90%的準確率,顯示它們能成為神經病理學家在報告實踐中的有用工具,特別是在跟上最新分類變更方面。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這份摘要強調大型語言模型(LLMs)在預測實驗結果方面的潛力,特別是在神經科學領域。研究介紹了BrainBench,一個評估LLMs預測能力的基準測試。結果顯示,LLMs在預測上可超越人類專家,而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時,預測也相對可靠,顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學,還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

這項研究顯示大型語言模型(LLMs),像是GPT,在學術界,特別是醫學領域的使用越來越普遍。調查訪問了來自59個國家的226位參與者,結果發現87.6%的人對LLMs有了解,且這些人發表的論文數量較多。雖然18.7%的人使用LLMs處理語法和格式,但許多人並未在作品中說明。大多數人(50.8%)認為LLMs將對未來有正面影響,尤其在編輯和文獻回顧方面,但也有呼籲制定規範以防止濫用的聲音,強調了建立倫理指導方針的必要性。 PubMed DOI

ChatGPT這類大型語言模型,能幫助放射科研究人員在研究發想、文獻整理、設計、分析和寫作上更有效率。不過,也要注意錯誤、偏見和隱私等風險。透過像提示工程和模型優化等方法,可以提升使用成效,同時降低潛在風險。 PubMed DOI

這篇研究回顧了LLM在自動化科學文獻回顧的應用,分析了172篇論文。多數專案用ChatGPT或GPT系列,特別在文獻搜尋和資料擷取上表現比BERT好。不過,實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制,但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

這項研究發現,單靠GPT-4提升肺癌資料集的metadata品質效果有限,但如果有結構化的領域知識(如範本)輔助,GPT-4表現會大幅提升。代表只要有知識庫支援,LLM自動整理metadata會更有效率。 PubMed

這篇研究發現,MRI 序列描述太多樣,難以辨識掃描類型。用 GPT-4o 這類大型語言模型自動分類,準確率超高(AUC 約 0.98),比傳統方法和 Llama 系列都好。總結來說,LLMs 很適合用來標準化和解讀 MRI metadata。 PubMed DOI