24周年

財(cái)稅實(shí)務(wù) 高薪就業(yè) 學(xué)歷教育
APP下載
APP下載新用戶掃碼下載
立享專屬優(yōu)惠

安卓版本:8.7.50 蘋果版本:8.7.50

開發(fā)者:北京正保會(huì)計(jì)科技有限公司

應(yīng)用涉及權(quán)限:查看權(quán)限>

APP隱私政策:查看政策>

HD版本上線:點(diǎn)擊下載>

XBRL層次結(jié)構(gòu)與財(cái)務(wù)信息數(shù)據(jù)挖掘

來源: 姚靠華 洪昀 編輯: 2009/11/23 18:25:11  字體:

  【摘 要】XBRL是XML在商業(yè)報(bào)告領(lǐng)域的規(guī)范化,發(fā)展步伐迅猛。XBRL吸收了XML的結(jié)構(gòu)層次特點(diǎn),并有其獨(dú)特的地方。它通過分層機(jī)制,有利于把握商業(yè)事實(shí)內(nèi)在語(yǔ)義,便于計(jì)算機(jī)理解,促進(jìn)了財(cái)務(wù)信息數(shù)據(jù)挖掘。

  【關(guān)鍵詞】XBRL; XML; 層次結(jié)構(gòu); 數(shù)據(jù)挖掘

  XBRL(eXtensible Business Reporting Language,可擴(kuò)展商業(yè)報(bào)告語(yǔ)言)是用于企業(yè)財(cái)務(wù)數(shù)據(jù)電子交流的語(yǔ)言,是一種基于XML語(yǔ)言的實(shí)現(xiàn)(準(zhǔn)確的說是規(guī)范化)。上世紀(jì)90年代末美國(guó)首先提出XBRL理論,很快為實(shí)務(wù)界所采納,短短幾年之內(nèi),XBRL得到超乎尋常的發(fā)展。在XBRL國(guó)際組織(xbrl.org)的推動(dòng)下,目前XBRL在全球范圍內(nèi)已經(jīng)被大多數(shù)會(huì)計(jì)師事務(wù)所、貿(mào)易機(jī)構(gòu)、軟件開發(fā)商、金融機(jī)構(gòu)、投資者以及政府機(jī)構(gòu)采用。

  現(xiàn)在對(duì)XBRL的研究普遍存在僅從技術(shù)上理解的傾向,但其實(shí)際情況并非如此。XBRL的廣泛傳播并不是僅僅是由于技術(shù)規(guī)范的成熟和標(biāo)準(zhǔn)的整齊劃一,更重要的是因?yàn)樗鼘?duì)于現(xiàn)實(shí)生活中商業(yè)行為的深刻理解和語(yǔ)義層面的把握,才使得不同語(yǔ)法形式下(外在表現(xiàn)為異質(zhì)平臺(tái))信息共享成為可能,極大地促進(jìn)了財(cái)務(wù)信息數(shù)據(jù)挖掘的進(jìn)行,滿足了決策者對(duì)有用信息和知識(shí)的需求。本文將探討XBRL的層次結(jié)構(gòu)特點(diǎn),以說明為何它能有效地把握語(yǔ)義信息及由此而產(chǎn)生的數(shù)據(jù)挖掘問題。

  一、XML層次結(jié)構(gòu)與計(jì)算機(jī)理解

  XBRL是XML在商業(yè)報(bào)告領(lǐng)域的應(yīng)用。XML是一種面向計(jì)算機(jī)的使用元數(shù)據(jù)標(biāo)識(shí)信息的標(biāo)準(zhǔn)化結(jié)構(gòu);XBRL則給出了元數(shù)據(jù)的一個(gè)規(guī)范化,并簡(jiǎn)單定義了財(cái)務(wù)報(bào)告文檔信息標(biāo)記的語(yǔ)義關(guān)系。

  XBRL,或者說XML之所以要采用層次結(jié)構(gòu)的方式,是因?yàn)槿撕陀?jì)算機(jī)對(duì)事物的理解,都是分層的。

  筆者采用自然語(yǔ)言描述這樣一個(gè)事實(shí)——“紅星股份有限公司2006年年報(bào)總資產(chǎn)是1 000萬(wàn)元”,我們理解這一語(yǔ)句的過程大致分為這么幾步:分析語(yǔ)句語(yǔ)法結(jié)構(gòu)為“<主語(yǔ)名詞詞組>(<‘是’><數(shù)量詞賓語(yǔ)>=”,此語(yǔ)法結(jié)構(gòu)對(duì)應(yīng)的語(yǔ)義解釋規(guī)則為“(等值于)(個(gè)體—>屬性,數(shù)量值)”,據(jù)此語(yǔ)句解釋為“(等值于)(紅星股份有限公司—>總資產(chǎn),1 000萬(wàn)元)”;至此解釋并沒有完成,而只是把對(duì)象語(yǔ)言的自然語(yǔ)言形式轉(zhuǎn)化為了元語(yǔ)言的邏輯函數(shù)形式,對(duì)對(duì)象語(yǔ)言的理解也轉(zhuǎn)化為了對(duì)邏輯函數(shù)的理解。要理解這一邏輯函數(shù)項(xiàng),需要解釋等值關(guān)系、年報(bào)總資產(chǎn)等語(yǔ)義要素的含義,對(duì)這些要素的理解又需要訴諸于更上一層的元語(yǔ)言。由此每一層次的語(yǔ)言都需要在更上一層的元語(yǔ)言中實(shí)現(xiàn)語(yǔ)義解釋。當(dāng)然,如此反復(fù)將導(dǎo)致無(wú)限循環(huán),可能存在語(yǔ)義解釋系統(tǒng)都以一定的假設(shè)(尤其是對(duì)某些形而上命題的假設(shè),亦即本體論)為起點(diǎn)。以W3C總監(jiān)Tim Berners-Lee在XML2000年會(huì)上提出的語(yǔ)義Web為例,其意義解釋層次結(jié)構(gòu)如圖1所示。

  這一層次結(jié)構(gòu)中,只有XML層、RDF層、Ontology層、Logic層是為語(yǔ)言解釋而設(shè)計(jì)的,這四個(gè)層次本身還可以進(jìn)一步劃分。XML文檔描述的是信息內(nèi)容,NS定義了信息內(nèi)容的訪問地址標(biāo)識(shí),XML Schema則規(guī)定了文檔的語(yǔ)法格式;RDF提供了標(biāo)準(zhǔn)的元數(shù)據(jù)語(yǔ)義描述規(guī)范;而本體論(ontology)在RDFs基礎(chǔ)上定義了領(lǐng)域共享概念的形式化顯式說明,Ontology一般分為頂層本體、領(lǐng)域本體、任務(wù)本體、應(yīng)用本體;邏輯層則(Logic)提供了基于本體進(jìn)行邏輯推理的規(guī)則,它目前有SWRL(Semantic Web Rule Language)與ORL(OWL Rule Language)兩個(gè)提案,未形成標(biāo)準(zhǔn)。

  相比HTML及PDF的會(huì)計(jì)信息表述形式,XML的優(yōu)勢(shì)在于可標(biāo)識(shí)信息的語(yǔ)義項(xiàng),這種標(biāo)識(shí)是對(duì)計(jì)算機(jī)而言的。以“投資收益1 000萬(wàn)元”為例,PDF與HTML等方式只是通過網(wǎng)絡(luò)傳遞人類能通過視覺系統(tǒng)將其中的信息項(xiàng)“投資收益”與值項(xiàng)“1 000”相對(duì)應(yīng)起來的、顯示在屏幕上或打印到紙上的“電子圖紙”;而在XML里,我們可以通過標(biāo)簽來唯一地標(biāo)識(shí)信息項(xiàng),如1000表示投資收益1 000萬(wàn)元,計(jì)算機(jī)可以輕松地通過查找各上市公司發(fā)布財(cái)務(wù)報(bào)表的固定網(wǎng)址上的標(biāo)簽來獲得各上市公司投資收益。而對(duì)PDF與HTML文檔,計(jì)算機(jī)只能將整篇的文檔匯總到一起供我們集中閱讀。

 

  XML的思想精髓在于分層,實(shí)現(xiàn)“信息顯示與信息內(nèi)容相分離”、“信息內(nèi)容與信息語(yǔ)法格式相分離”、“語(yǔ)法格式與語(yǔ)義規(guī)則相分離”、“語(yǔ)義規(guī)則與本體論相分離”。分層機(jī)制將語(yǔ)義解釋轉(zhuǎn)化為了對(duì)樹形結(jié)構(gòu)文檔的解讀問題,這使得計(jì)算機(jī)能夠使用一個(gè)相似的遞歸算法來實(shí)現(xiàn),大大降低了工程實(shí)踐的難度,也從實(shí)踐的角度佐證了語(yǔ)義解釋亦是遞歸計(jì)算。不過不能因此而認(rèn)為樹形結(jié)構(gòu)的XML文件就完整地表示了信息語(yǔ)義關(guān)系,XML不過是信息的語(yǔ)法形式,盡管語(yǔ)義解釋的元語(yǔ)言語(yǔ)句也可以是XML(事實(shí)上Schema、RDF、OWL都采用樹形文檔結(jié)構(gòu)),但邏輯上兩者處于不同層次上。

  狹義地講,計(jì)算機(jī)對(duì)XML的理解是根據(jù)Schema文檔定義的語(yǔ)法要素(element)及要素之間的組合關(guān)系(complexType)識(shí)別出XML實(shí)例文檔中語(yǔ)法要素,并據(jù)此建立語(yǔ)法要素與信息內(nèi)容之間的關(guān)聯(lián)。但如果沒有RDF、OWL、Logic層次的支持,計(jì)算機(jī)理解只可能是限定于特定語(yǔ)言層次上的形式化理解。從廣義上看,XML是一個(gè)包含了RDF、OWL、Logic的完整體系結(jié)構(gòu),計(jì)算機(jī)理解實(shí)質(zhì)上是借助于遞歸算法,對(duì)各層次的關(guān)系完整把握。

  二、XBRL的層次結(jié)構(gòu)

  作為XML的一個(gè)應(yīng)用模式,XBRL的層次結(jié)構(gòu)也有其特點(diǎn)??梢詫F(xiàn)有的XBRL分為三層:技術(shù)規(guī)格(specification)、分類標(biāo)準(zhǔn)(Taxonomy)和實(shí)例文檔(Instance Documents)。

  技術(shù)規(guī)格,或稱說明、規(guī)范,主要用于定義XBRL的各種專門術(shù)語(yǔ),描述了XBRL文件的結(jié)構(gòu),詳細(xì)規(guī)定了XBRL分類的標(biāo)準(zhǔn)和XBRL實(shí)例文檔的語(yǔ)法和語(yǔ)義。雖然有XML元素和屬性的語(yǔ)義上的表述,但XBRL規(guī)格是一項(xiàng)側(cè)重技術(shù)的文件,目的在于定義一項(xiàng)符合規(guī)范的XBRL文檔。

  分類標(biāo)準(zhǔn)是財(cái)務(wù)報(bào)告發(fā)布的語(yǔ)法格式,也部分定義了各會(huì)計(jì)報(bào)表要素的“語(yǔ)義關(guān)系”。如“資產(chǎn)=負(fù)債+所有者權(quán)益”、“主營(yíng)業(yè)務(wù)收入是利潤(rùn)表的要素”、“Assets表達(dá)資產(chǎn)的概念”等等。分類標(biāo)準(zhǔn)由名為Taxonomy.xsd的XML Schema文檔與相關(guān)聯(lián)的五個(gè)XML鏈接庫(kù)文件(Definition.xml,Calculation.xml, Presentation.xml,Label.xml,Reference.xml)組成,Taxonomy定義的是報(bào)表的語(yǔ)法形式,鏈接庫(kù)文件定義的是報(bào)表語(yǔ)法要素的語(yǔ)義關(guān)系,其結(jié)構(gòu)如圖2所示。

  XML鏈接庫(kù)文件是使用鏈接語(yǔ)言(XLink)定義的,并不局限于外在形式上標(biāo)簽之間的鏈接(HTML鏈接則是外在形式上的鏈接),而是主要用來描述信息內(nèi)容標(biāo)簽(元數(shù)據(jù))之間的聯(lián)系。XBRL的五個(gè)鏈接庫(kù)文件定義的是XBRL Schema文檔中各標(biāo)簽之間的聯(lián)系,屬于XBRL Schema的元語(yǔ)言范疇。顯然,XBRL并未遵循語(yǔ)義Web的體系結(jié)構(gòu),其語(yǔ)義表達(dá)功能較為簡(jiǎn)單。

  Definition鏈接庫(kù)描述Schema文件中元素概念之間的關(guān)系,這些關(guān)系可取general-special、similar-tuples、essence-alias、requires-element等四種值,分別表示一般與特殊的種屬關(guān)系、不同XML視圖中的元組間的定義等價(jià)關(guān)系、概念間的相似關(guān)系、跟隨出現(xiàn)關(guān)系。Calculation鏈接庫(kù)定義了元素間的線性運(yùn)算關(guān)系,具體關(guān)系式為“TO=FROM1*WEIGHT1+FROM2*WEIGHT2 +……+FROM-n*WEIGHT-n”。Label鏈接庫(kù)定義了Schema文檔中的元素與XML中標(biāo)記的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)一個(gè)元素與多個(gè)標(biāo)記相關(guān)聯(lián)。Presentation鏈接庫(kù)規(guī)定了元素展現(xiàn)的父子關(guān)系與兄弟元素的展現(xiàn)次序。Reference鏈接庫(kù)建立了元素到元素涵義解釋的權(quán)威參考文獻(xiàn)鏈接。Label與Presentation定義的都是XBRL實(shí)例文檔的展示問題,而Reference顯然是為便于人類閱讀者索取各元素權(quán)威解釋而設(shè)計(jì)的,它們都不涉及信息項(xiàng)的語(yǔ)義關(guān)系定義;定義Schema元素語(yǔ)義關(guān)系的只有Definition與Calculation。

  實(shí)例文檔是一個(gè)企業(yè)根據(jù)XBRL規(guī)范和XBRL分類標(biāo)準(zhǔn)做成的財(cái)務(wù)報(bào)表,它必須要同時(shí)滿足分類標(biāo)準(zhǔn)的定義和規(guī)范的限制。實(shí)例文檔封裝了具體的商業(yè)事實(shí)(fact),根據(jù)信息的匯集程度分為條目(item)、元組(tuple)、組(groups)三個(gè)不同層次。其中,條目通常與一個(gè)數(shù)字型的事實(shí)對(duì)應(yīng);元組是事實(shí)的聯(lián)合體,等同于關(guān)系數(shù)據(jù)庫(kù)里的一條記錄,組是實(shí)例文檔的根結(jié)點(diǎn),由相關(guān)聯(lián)的數(shù)據(jù)項(xiàng)的集合構(gòu)成。在不知道分類標(biāo)準(zhǔn)的情況下,實(shí)例文檔沒有任何意義。用戶需要借助與分類標(biāo)準(zhǔn)和相應(yīng)的軟件才能從XBRL實(shí)例中提取所需要的數(shù)據(jù)并加以分析。

  可以看到,XBRL并沒有完全遵循語(yǔ)義Web的規(guī)范,試圖通過Definition鏈接庫(kù)和Calculation鏈接庫(kù)來把握財(cái)務(wù)對(duì)象的語(yǔ)義,這必將是不充分的。技術(shù)規(guī)格雖然也有一些專門術(shù)語(yǔ)語(yǔ)義層次上的表述,但總的來看,與XML存在的缺陷一樣,XBRL缺乏本體層概念關(guān)系定義和邏輯層的計(jì)算規(guī)則定義。

  W3C也試圖致力于彌補(bǔ)這一缺陷。2004年提出標(biāo)準(zhǔn)化的本體語(yǔ)言O(shè)WL就代表了這方面的努力。OWL由OWL Lite、OWL DL(Description Logics)、OWL Full三個(gè)并列的子集構(gòu)成,OWL Lite用于表示只需一個(gè)分類層次和簡(jiǎn)單約束關(guān)系的形式語(yǔ)義關(guān)系;OWL DL用于表示需要最強(qiáng)表達(dá)力且需要保持計(jì)算的完備性(即所有結(jié)論可計(jì)算)與可判定性(所有計(jì)算能夠在有限時(shí)間內(nèi)完成)的形式語(yǔ)義關(guān)系;OWL Full用于需要最強(qiáng)表達(dá)力且無(wú)法提供計(jì)算完備性與可判定性保證的形式語(yǔ)義關(guān)系。其中,OWL DL也提供了完備的實(shí)例、類、屬性、關(guān)系等元語(yǔ)言對(duì)象的表示工具。也就是說,OWL層提供了充分定義XBRL范疇概念關(guān)系的形式工具。

  若OWL能夠得到充分的完善,必將為XBRL提供有力支持,彌補(bǔ)技術(shù)規(guī)范語(yǔ)義表達(dá)方面的不足??梢栽O(shè)想,較為理想的XBRL層次關(guān)系如圖3所示。

  三、XBRL層次結(jié)構(gòu)引致的財(cái)務(wù)數(shù)據(jù)挖掘

  數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,但又是潛在的有用信息和知識(shí)的過程。相對(duì)于傳統(tǒng)的數(shù)據(jù)分析,數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。

  因?yàn)樾畔⒕哂袕?qiáng)烈的時(shí)效性,一旦為所有人所知曉,信息的價(jià)值就蕩然無(wú)存。在當(dāng)今瞬息萬(wàn)變的商業(yè)環(huán)境中,競(jìng)爭(zhēng)的主要方式是信息的競(jìng)爭(zhēng),傳統(tǒng)的事后分析型的數(shù)據(jù)分析方法將被事前探索型的數(shù)據(jù)挖掘所取代。而與此同時(shí),信息提供者之間也存在著激烈的競(jìng)爭(zhēng),如財(cái)務(wù)信息與非財(cái)務(wù)信息之間的競(jìng)爭(zhēng)也日益激烈。XBRL的提出不但為財(cái)務(wù)信息提供者增加了競(jìng)爭(zhēng)的籌碼,也直接推動(dòng)了財(cái)務(wù)數(shù)據(jù)挖掘的開展。

  XBRL的優(yōu)勢(shì)在其清晰的層次關(guān)系和語(yǔ)義表達(dá)能力。XBRL的層次結(jié)構(gòu)在財(cái)務(wù)數(shù)據(jù)挖掘的優(yōu)勢(shì)表現(xiàn)在:

 ?。ㄒ唬┛缙脚_(tái)使用

  由于采用了XML的架構(gòu)體系,在不同的操作系統(tǒng)下,如Windows、Unix和Linux等,XBRL文件無(wú)需修改就可以直接使用。在不同的應(yīng)用軟件中,即使所用的數(shù)據(jù)庫(kù)不同,只要轉(zhuǎn)換成XBRL格式,也可以實(shí)現(xiàn)數(shù)據(jù)的交換??缙脚_(tái)使用的關(guān)鍵在于XBRL實(shí)現(xiàn)了語(yǔ)法格式與語(yǔ)義規(guī)則分層,在圖3中表現(xiàn)為技術(shù)規(guī)范和分類標(biāo)準(zhǔn)的分層,從而使得XBRL在不同的技術(shù)實(shí)現(xiàn)之間沒有障礙。

 ?。ǘ?shù)據(jù)跟蹤

  XBRL可以在不同的信息之間建立連接,跟蹤相關(guān)的信息線索,自頂向下地考察數(shù)據(jù)源直到底層的數(shù)據(jù),方便了對(duì)企業(yè)報(bào)告的閱讀和數(shù)據(jù)分析。XBRL的技術(shù)結(jié)構(gòu)使其具有良好的動(dòng)態(tài)分析功能,計(jì)算機(jī)可以讀懂XBRL標(biāo)記的含義,而且操作員也可以很容易地從文檔中獲取有價(jià)值的信息。當(dāng)搜索引擎找到所需的信息時(shí),它能進(jìn)一步追蹤下去找到數(shù)據(jù)的最初來源及其它與該信息有關(guān)的資料。同時(shí),完善的定義與唯一的XBRL要素使信息減少了模糊性。數(shù)據(jù)跟蹤的關(guān)鍵則在于OWL與分類標(biāo)準(zhǔn)的分層結(jié)構(gòu),通過對(duì)OWL的深入挖掘可發(fā)現(xiàn)分類標(biāo)準(zhǔn)中各元素之間的內(nèi)在聯(lián)系,在圖3中表現(xiàn)為OWL與分類標(biāo)準(zhǔn)的分層。

 ?。ㄈ┧阉骺焖佟?zhǔn)確

  XBRL使用標(biāo)簽描述數(shù)據(jù)的含義。在進(jìn)行數(shù)據(jù)搜索時(shí),不是像HTML那樣根據(jù)字面內(nèi)容進(jìn)行搜索,而是根據(jù)標(biāo)簽的語(yǔ)義進(jìn)行定位,這樣搜索引擎就能夠快速、準(zhǔn)確地找到用戶所需的特定信息。同時(shí),由于XBRL采用標(biāo)簽來標(biāo)記數(shù)據(jù),可以通過應(yīng)用程序?qū)λ阉鹘Y(jié)果中的數(shù)據(jù)進(jìn)行匯總。其效率遠(yuǎn)遠(yuǎn)高于目前互聯(lián)網(wǎng)上的PDF、WORD和HTML等文件格式。而實(shí)現(xiàn)這一目標(biāo)的要點(diǎn)在于圖3中分類標(biāo)準(zhǔn)與實(shí)例文檔的分層,清晰的分類有利于滿足豐富實(shí)例中信息的挖掘。

  XBRL清晰的層次結(jié)構(gòu)關(guān)系不但支持了數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理過程,也為各種適用于不同范圍與層次的數(shù)據(jù)挖掘工具提供了良好的材料。如在數(shù)據(jù)的預(yù)處理過程中,為對(duì)XBRL文檔進(jìn)行存儲(chǔ)和校驗(yàn),可以借助于IPEDO XML智能處理平臺(tái),利用其Schema Manager和XML Rule模塊在OWL和分類標(biāo)準(zhǔn)層次上搜集相關(guān)信息,然后對(duì)XBRL實(shí)例文檔進(jìn)行校驗(yàn)。

  總之,XBRL的層次結(jié)構(gòu)特點(diǎn)為財(cái)務(wù)數(shù)據(jù)的挖掘提供了極大的方便,這是XBRL得到廣泛推崇的原動(dòng)力之一。

  四、結(jié)論

  XBRL承繼了XML分層的機(jī)構(gòu)特征,有利于計(jì)算機(jī)對(duì)語(yǔ)義信息的把握和數(shù)據(jù)挖掘工具的使用,這是XBRL在短短幾年的時(shí)間里得到迅猛發(fā)展的重要原因。但是,XBRL作為XML在財(cái)務(wù)方面的實(shí)現(xiàn),也存在同樣的缺陷,缺乏本體層次上的有力支撐。相信隨著對(duì)其研究的深入開展和各領(lǐng)域本體構(gòu)建的完善,能夠彌補(bǔ)這方面的缺陷。

  【主要參考文獻(xiàn)】

  [1] 李雄飛,李軍.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M].北京:高等教育出版社,2003.

  [2] Bryan Bergeron. XBRL語(yǔ)言21世紀(jì)的財(cái)務(wù)報(bào)告[M]. 北京:中國(guó)人民大學(xué)出版社,2004.

  [3] Tim Berners-Lee. Semantic Web - XML2000. http:∥www.w3.org/2000/Talks/ 1206-xml2k-tbl,2000-12-06.

  [4] XBRL International. Extensible Business Reporting Language (XBRL)2.1 Specification. Http://www.xbrl.rog,2003-12-31.

責(zé)任編輯:小奇
回到頂部
折疊
網(wǎng)站地圖

Copyright © 2000 - jnjuyue.cn All Rights Reserved. 北京正保會(huì)計(jì)科技有限公司 版權(quán)所有

京B2-20200959 京ICP備20012371號(hào)-7 出版物經(jīng)營(yíng)許可證 京公網(wǎng)安備 11010802044457號(hào)