Wikidata 中的族語現況與未來展望
王文岳 Allen Wang
Wikidata Taiwan
2025/12/20
鏈結資料與 Wikidata 簡介
社群工作成果
未來展望
小結
王文岳
- Wikidata Taiwan 共同發起人
- 立法院開放國會第一屆委員
- 前台灣維基媒體協會秘書長
- 李梅樹紀念館資訊組召集人
- 國家文化記憶庫社群經營研究:資訊技術協力

內容
人
我們常說找資料真的是人在找資料嗎?
內容
人
後設資料
Metadata
搜尋引擎/AI
搜尋行為/資料存取
人為編寫/機器生成
但是如果有資料......
電腦卻找不到呢?
鏈結資料(Linked Data)的目的是讓資料集能發布到全球網上,
讓個別資料集和其它資料集的項目可相互連結,
並避免資料筒倉效應(Data Silo Effect)。
-引自葉慶隆【以語意網技術整合網站異質資料
供鏈結資料發布】
註:資料筒倉效應又可稱資料穀倉、資訊孤島等
什麼是鏈結資料?
鏈結資料 (Linked Data):
-
利用 URI 為事物命名
-
以 HTTP 做為客戶端和伺服器端之間查詢及傳送URI的機制,使人或電腦可以查詢特定 URI 所代表事物的相關資訊
-
伺服器端使用 RDF 與 SPARQL 等標準,提供更多的資訊。當伺服器端接獲客戶端對於特定 URI 的請求時,伺服器端會以標準格式將該 URI 所代表事物的相關資訊傳 回給客戶端。若客戶端是「人」,則伺服器端可回傳 HTML 格式的文件;若客戶端是「應用程式」,則伺服器端可回傳 RDF 格式的文件,以方便客戶端的應用程式再利用這些資訊
-
對於特定 URI 所代表事物的相關資訊中,應包含與其他相關事物的連結(連結到該事物的 URI ),使得事物間得以串連,以達成構築全域資料空間的目標
--【鏈結資料在圖書館的應用】
什麼是 URI?
統一識別碼
在單一個資料庫中一個統一格式的號碼配發
通常單一筆資料只會對映一個號碼
像是身份證字號、信用卡號、郵局帳號都是等等
簡單來說:我們要讓電腦看得懂
我們來看看怎樣的資料電腦才比較容易看懂
以統一識別碼(URI)為物件命名
以HTTP服務提供URI的查詢與資訊提供

特定URI的內容應保留連結到其他URI的連結
成功大學
Q706708
性質 P31
國立大學
Q265662
資料的描述都是一對一的
並且每一筆資料都會有獨一無二的識別碼
也不會搞混
主詞
述詞
受詞

給人看顯示 HTML 介面
給電腦看顯示 RDF 頁面
Wikidata 中的 李梅樹 Q700797

中央研究院數位文化中心【鏈結台灣藝術家資料集】

開放資料五顆星
Wikidata 可以有效降低打造 LoD 平台的成本
並擴展相關的應用
--ARL White Paper on Wikidata
2019
圖書館可以各自使用不同的,
唯一的或選擇的識別碼和權限控制方法來消除歧義。
Wikidata 越來越成為一種重要的工具,可用於跨識別碼進行同步。
整合對 Wikidata 及其用於增強 metadata 和鏈結開放資料用途的認識將有助於推進更加互聯的研究網路。
-- Opportunities for Academic and Research Libraries and Wikipedia
2016 IFLA

鏈結開放資料平台 - Wikidata.org
Wikidata 扮演著串連全球網路各平台資料的角色

在維基媒體計畫內部
Wikidata 也扮演著多語言/多計畫資料整合對照

Wikidata 同時是 VIAF 的一份子
提供全球尺度的資料對照與串聯
P
L
Q
Property
屬性
Lexeme
詞意/詞位
Item
物件
Wikidata 的主要內容架構
Q
Q
P
P
P
Q
P
P
P
在 Wikidata 裡面我們不再用散文的方式在紀錄資料
而是改變成為單字、片語的方式進行
讓跨語言的資料只需要翻譯單詞或片語
就能用最低的成本做到多語言呈現


trv
tay

szy
中華民國
教育部
教育部
性質
Q697093
P31
Q2269756
Ciyaw-i-pu
性質
教育部
Kyo’ikbu
性質
教育部
ami
tay
en
Ministry of Education (R.O.C)
instance of
ministry of education


Wikidata 同時透過「亦稱為」一欄
以及多語言欄位
提供跨語言對照以及權威詞彙對照的功能
樂信·瓦旦
- 音界號?
- 樂信·瓦旦? 樂信‧瓦旦?
- 拼寫不同或是各不同語言
- Losing Watan 、樂信·瓦旦
- 不同時期的姓名
- 渡井三郎、日野三郎
語言欄位連結各語言與各通同名稱
並使用唯一識別碼互相溝通
提供權威對照的功能

亦稱為 欄位同時也可以處理單一語言代碼下
多語言、多部落稱呼不同的問題

~ 2025
社群工作成果

2024 年末推動 Wikidata 收錄 tsu、xnb、sxr、ckv、tao
自此法定 16 族語言在 Wikidata 都可用母語標籤
至少有 19 族南島語言在 Wikidata 中母語標籤可用

語言代碼 uun 分拆 pzh 與 uon 工作正在進行中
未來平埔語的工作也將持續

與各族合作推動主題資料
部分則為社群轉錄網路資料
~ 2025
各族社群工作成果

2021 年撒奇萊雅族 Wikidata 翻譯工作坊

Wikidata 屬性與物件
翻譯

2023 年賽德克 Wikidata 講座與文獻工作坊

2024 萬山魯凱(下三社) Wikidata 詞位與錄音工作坊

收錄詞位以及單字發音

多語言橫向對照詞義
earthquake L31985-S1

語言代碼共用
可以分開標註

2025 泰雅 Wikidata 詞位工作坊

2025 阿美 Wikidata 詞位、屬性工作坊

2025 首次與噶哈巫語合作推出詞位工作坊

將論文資料轉為 Wikidata 資料
保存瀕危語言

2025 賽德克工作坊
同時與三語別社群
推動屬性翻譯

與賽德克社群共同推出技術文件三語群翻譯版本
並以發表會形式向族人們導讀文本內容

各族持續建置詞位資料
秀姑巒阿美以 1238 個詞位成為第 53 大語言 (總共有 1460 種語言)
未來展望

推動與國際 Wikidata 詞位競賽的對照

持續推動屬性翻譯至族語
目前 Wikidata 已經
超過8000個屬性

各族群主題文獻、文章編目與收集

文獻
人物
事件
地點
族群主題資料集
Wikidata x AI

已經有許多研究表明 Wikidata 有助於改善 AI 出現幻覺
透過 Wikidata 的資料校對 LLM / AI 的資料缺失
期許未來 Wikidata 族群資料集的建構
共同打造完整的原住民族群知識圖譜
小結
族語社群可優先推動編輯
- 主題文獻編目
- 詞位編輯
- 項目族語翻譯
- 屬性族語翻譯
- 活動頁面族語版本
- 政策文件族與版本
文獻
語言
資料集
從過去單點資料建置形成完整資料配套
在數位層面活化語言
謝謝大家
Wikidata 中的族語現況與未來展望
By allenwang6212
Wikidata 中的族語現況與未來展望
- 90