Image

剛剛才知道,原來還有台灣本土版語言模型這檔事 @@ 轉貼上來一起長知識:
AI 共筆 - 台灣本土版語言模型 - Taiwan LLM 是怎麼煉成的?-黑暗執行緒

來源影片:Taiwan LLM 解析台灣第一個大型對話式語言模型 - 林彥廷


其中一個部份讓我比較驚訝,是在展示 ChatGPT 和 Taiwan LLM 回答的部份

當詢問「什麼是載具」的時候,ChatGPT 會回答:「載具是購物袋或容器,他是問你要不要裝袋…」

而 Taiwan LLM 能夠回答:「載具是儲存電子發票的設備…」

很明顯就有慣用詞的差異,也讓 GPT 產生了更多的誤會

也因此,往後 AI 助理也會需要做更多的在地化,才能更精準地幫助使用者解決問題

就像文章裡寫的這段:

LLM 的訓練資料繁體中文佔比很低,在全世界的文本可能佔不到 0.1% (英文 54%、西班牙文 30%,中文僅 1%;其中簡體中文 90%,繁體中文 10%)

語言不只是翻譯就好,在文化、價值觀、常識 (例如:發票載具) 方面也要對齊才算在地化,使用者多聊兩句便能感受這是會講中文的外國機器人,還是真的具有台灣魂?

那麼,今天的轉貼就先到這邊。明天見 ><