馬克斯普朗克人類歷史科學(xué)研究所發(fā)布最新版本的跨語(yǔ)言共詞化數(shù)據(jù)庫(kù)CLICS
來(lái)源:桑間濮上網(wǎng)
時(shí)間:2025-11-22 10:46:27




馬克斯普朗克人類歷史科學(xué)研究所發(fā)布最新版本的跨語(yǔ)言共詞化數(shù)據(jù)庫(kù)CLICS(CREDIT:J.-M. List, T. Tresoldi / S. J. Greenhill)
(神秘的地球uux.cn報(bào)道)據(jù)EurekAlert!:由馬克斯普朗克人類歷史科學(xué)研究所的學(xué)者領(lǐng)導(dǎo)的一組科學(xué)家發(fā)布了最新版本的跨語(yǔ)言共詞化數(shù)據(jù)庫(kù)(Database of Cross-Linguistic Colexifications CLICS),涵蓋了超過(guò)3100種語(yǔ)言的斯普所發(fā)數(shù)據(jù)關(guān)聯(lián)詞匯。新版本的朗克歷史深圳包夜外圍(微信181-8279-1445)一二線城市模特空姐網(wǎng)紅學(xué)生上門(mén)數(shù)據(jù)庫(kù)以前所未有的規(guī)模提供了詞匯數(shù)據(jù),并為數(shù)據(jù)聚合提供了詳細(xì)、人類可復(fù)制的科學(xué)跨語(yǔ)庫(kù)工作流,使世界各地的研究言共學(xué)者都可以為數(shù)據(jù)庫(kù)的未來(lái)版本做出貢獻(xiàn)。
在每種語(yǔ)言中,布最本都有兩個(gè)或兩個(gè)以上的新版概念用同一詞表示的情況,例如英語(yǔ)單詞fly,詞化既指飛行的馬克行為,又指蒼蠅。斯普所發(fā)數(shù)據(jù)語(yǔ)言學(xué)家將這種模式稱為共詞化(colexification)。朗克歷史通過(guò)比較不同語(yǔ)言中的人類共詞化現(xiàn)象,研究人員可以洞悉廣泛的科學(xué)跨語(yǔ)庫(kù)問(wèn)題,包括人類的研究言共深圳包夜外圍(微信181-8279-1445)一二線城市模特空姐網(wǎng)紅學(xué)生上門(mén)感知,語(yǔ)言的演變和語(yǔ)言的接觸。 CLICS數(shù)據(jù)庫(kù)的第三部分顯著增加了早期版本中可用的語(yǔ)言、概念和數(shù)據(jù)源的數(shù)量,從而使研究人員能夠以前所未有的細(xì)節(jié)和深度在全球范圍內(nèi)研究共詞化現(xiàn)象。
借助詳細(xì)的計(jì)算機(jī)輔助工作流程,CLICS促進(jìn)了語(yǔ)言數(shù)據(jù)集的標(biāo)準(zhǔn)化,并為語(yǔ)言研究中的許多持續(xù)挑戰(zhàn)提供了解決方案。 Tiago Tresoldi表示:“過(guò)去數(shù)據(jù)匯總通常是通過(guò)臨時(shí)決定的步驟完成,但我們的新工作流程和最佳實(shí)踐指南是確保語(yǔ)言研究可重復(fù)性的重要一步。”研究應(yīng)用證明CLICS的有效性 最近在《科學(xué)》雜志上發(fā)表的一項(xiàng)研究中已經(jīng)說(shuō)明了CLICS提供新證據(jù)以解決心理學(xué)和認(rèn)知方面的前沿問(wèn)題的能力,該研究集中在情感概念在全球語(yǔ)言中的不同表達(dá)。
這項(xiàng)研究比較了來(lái)自全球語(yǔ)言樣本中的用于情感概念的共詞化網(wǎng)絡(luò),并發(fā)現(xiàn)情感的含義在不同的語(yǔ)言家族中差異很大。“在這項(xiàng)研究中,使用CLICS來(lái)研究世界各地語(yǔ)言在情感詞匯方面的差異,但是數(shù)據(jù)庫(kù)的潛力并不局限于情感概念。”Johann-Mattis List說(shuō),“我們將來(lái)還會(huì)解決更多有趣的問(wèn)題。”新標(biāo)準(zhǔn)和工作流程為收集可復(fù)制的全球詞匯數(shù)據(jù)提供可能性。
基于2018年首次提出的跨語(yǔ)言研究中標(biāo)準(zhǔn)化數(shù)據(jù)格式的新指南(guidelines for standardized data formats in cross-linguistic research,DOI:10.1038 / sdata.2018.205),CLICS團(tuán)隊(duì)把數(shù)據(jù)庫(kù)從300種語(yǔ)言和1200種概念增加到了3156種語(yǔ)言和2906種概念。新版本還保證了數(shù)據(jù)聚合(data aggregation)過(guò)程的可重復(fù)性,符合研究數(shù)據(jù)管理中的最佳實(shí)踐原則。“由于我們開(kāi)發(fā)了新的標(biāo)準(zhǔn)和工作流程,我們的數(shù)據(jù)不僅是公開(kāi)、公平的(可查找、可訪問(wèn)、可互操作和可再現(xiàn)),而且將語(yǔ)言數(shù)據(jù)從其原始形式提升到我們的跨語(yǔ)言標(biāo)準(zhǔn)的過(guò)程也更加高效。”Robert Forkel說(shuō)。
為CLICS開(kāi)發(fā)的工作流的有效性已經(jīng)在涉及大量學(xué)者和學(xué)生的各種驗(yàn)證實(shí)驗(yàn)中得到測(cè)試和證實(shí)。兩項(xiàng)不同的學(xué)生任務(wù)為此展開(kāi),創(chuàng)建了新的數(shù)據(jù)集并逐步改進(jìn)了現(xiàn)有數(shù)據(jù)。這兩項(xiàng)任務(wù)要求學(xué)生完成研究中描述的數(shù)據(jù)集,并創(chuàng)建的不同步驟,例如數(shù)據(jù)提取,數(shù)據(jù)映射(到參考目錄)和源識(shí)別。“讓核心團(tuán)隊(duì)以外的人使用和測(cè)試你的工具是必不可少的,這對(duì)微調(diào)所有流程有很大幫助,”Christoph Rzymski說(shuō)。 隨著CLICS及其工作流程可供更廣泛的受眾使用,學(xué)者們將來(lái)不僅可以直接對(duì)數(shù)據(jù)庫(kù)做出貢獻(xiàn),還可以在數(shù)據(jù)庫(kù)中使用。他們還可以從既有的設(shè)備中獲利并開(kāi)始自己的目標(biāo)收藏。“積極使用我們的標(biāo)準(zhǔn)和工作流程的語(yǔ)言學(xué)家的數(shù)量正在不斷增加。我們希望這個(gè)新版本的CLICS能夠進(jìn)一步傳播它們。”Simon Greenhill說(shuō)。






小溪妹妹和榕樹(shù)爺爺?shù)墓适?/a>


