XBRL層次結(jié)構(gòu)與財(cái)務(wù)信息數(shù)據(jù)挖掘

來(lái)源: 姚靠華洪昀編輯： 2009/11/23 18:25:11　　字體：大小

　　【摘要】XBRL是XML在商業(yè)報(bào)告領(lǐng)域的規(guī)范化，發(fā)展步伐迅猛。XBRL吸收了XML的結(jié)構(gòu)層次特點(diǎn)，并有其獨(dú)特的地方。它通過(guò)分層機(jī)制，有利于把握商業(yè)事實(shí)內(nèi)在語(yǔ)義，便于計(jì)算機(jī)理解，促進(jìn)了財(cái)務(wù)信息數(shù)據(jù)挖掘。

　　【關(guān)鍵詞】XBRL； XML；層次結(jié)構(gòu)；數(shù)據(jù)挖掘

　　XBRL（eXtensible Business Reporting Language，可擴(kuò)展商業(yè)報(bào)告語(yǔ)言）是用于企業(yè)財(cái)務(wù)數(shù)據(jù)電子交流的語(yǔ)言，是一種基于XML語(yǔ)言的實(shí)現(xiàn)（準(zhǔn)確的說(shuō)是規(guī)范化）。上世紀(jì)90年代末美國(guó)首先提出XBRL理論，很快為實(shí)務(wù)界所采納，短短幾年之內(nèi)，XBRL得到超乎尋常的發(fā)展。在XBRL國(guó)際組織（xbrl.org）的推動(dòng)下，目前XBRL在全球范圍內(nèi)已經(jīng)被大多數(shù)會(huì)計(jì)師事務(wù)所、貿(mào)易機(jī)構(gòu)、軟件開(kāi)發(fā)商、金融機(jī)構(gòu)、投資者以及政府機(jī)構(gòu)采用。

　　現(xiàn)在對(duì)XBRL的研究普遍存在僅從技術(shù)上理解的傾向，但其實(shí)際情況并非如此。XBRL的廣泛傳播并不是僅僅是由于技術(shù)規(guī)范的成熟和標(biāo)準(zhǔn)的整齊劃一，更重要的是因?yàn)樗鼘?duì)于現(xiàn)實(shí)生活中商業(yè)行為的深刻理解和語(yǔ)義層面的把握，才使得不同語(yǔ)法形式下（外在表現(xiàn)為異質(zhì)平臺(tái)）信息共享成為可能，極大地促進(jìn)了財(cái)務(wù)信息數(shù)據(jù)挖掘的進(jìn)行，滿足了決策者對(duì)有用信息和知識(shí)的需求。本文將探討XBRL的層次結(jié)構(gòu)特點(diǎn)，以說(shuō)明為何它能有效地把握語(yǔ)義信息及由此而產(chǎn)生的數(shù)據(jù)挖掘問(wèn)題。

　　一、XML層次結(jié)構(gòu)與計(jì)算機(jī)理解

　　XBRL是XML在商業(yè)報(bào)告領(lǐng)域的應(yīng)用。XML是一種面向計(jì)算機(jī)的使用元數(shù)據(jù)標(biāo)識(shí)信息的標(biāo)準(zhǔn)化結(jié)構(gòu)；XBRL則給出了元數(shù)據(jù)的一個(gè)規(guī)范化，并簡(jiǎn)單定義了財(cái)務(wù)報(bào)告文檔信息標(biāo)記的語(yǔ)義關(guān)系。

　　XBRL，或者說(shuō)XML之所以要采用層次結(jié)構(gòu)的方式，是因?yàn)槿撕陀?jì)算機(jī)對(duì)事物的理解，都是分層的。

　　筆者采用自然語(yǔ)言描述這樣一個(gè)事實(shí)——“紅星股份有限公司2006年年報(bào)總資產(chǎn)是1 000萬(wàn)元”，我們理解這一語(yǔ)句的過(guò)程大致分為這么幾步：分析語(yǔ)句語(yǔ)法結(jié)構(gòu)為“＜主語(yǔ)名詞詞組＞（＜‘是’＞＜數(shù)量詞賓語(yǔ)＞＝”，此語(yǔ)法結(jié)構(gòu)對(duì)應(yīng)的語(yǔ)義解釋規(guī)則為“（等值于）（個(gè)體—＞屬性，數(shù)量值）”，據(jù)此語(yǔ)句解釋為“（等值于）（紅星股份有限公司—＞總資產(chǎn)，1 000萬(wàn)元）”；至此解釋并沒(méi)有完成，而只是把對(duì)象語(yǔ)言的自然語(yǔ)言形式轉(zhuǎn)化為了元語(yǔ)言的邏輯函數(shù)形式，對(duì)對(duì)象語(yǔ)言的理解也轉(zhuǎn)化為了對(duì)邏輯函數(shù)的理解。要理解這一邏輯函數(shù)項(xiàng)，需要解釋等值關(guān)系、年報(bào)總資產(chǎn)等語(yǔ)義要素的含義，對(duì)這些要素的理解又需要訴諸于更上一層的元語(yǔ)言。由此每一層次的語(yǔ)言都需要在更上一層的元語(yǔ)言中實(shí)現(xiàn)語(yǔ)義解釋。當(dāng)然，如此反復(fù)將導(dǎo)致無(wú)限循環(huán)，可能存在語(yǔ)義解釋系統(tǒng)都以一定的假設(shè)（尤其是對(duì)某些形而上命題的假設(shè)，亦即本體論）為起點(diǎn)。以W3C總監(jiān)Tim Berners-Lee在XML2000年會(huì)上提出的語(yǔ)義Web為例，其意義解釋層次結(jié)構(gòu)如圖1所示。

　　這一層次結(jié)構(gòu)中，只有XML層、RDF層、Ontology層、Logic層是為語(yǔ)言解釋而設(shè)計(jì)的，這四個(gè)層次本身還可以進(jìn)一步劃分。XML文檔描述的是信息內(nèi)容，NS定義了信息內(nèi)容的訪問(wèn)地址標(biāo)識(shí)，XML Schema則規(guī)定了文檔的語(yǔ)法格式；RDF提供了標(biāo)準(zhǔn)的元數(shù)據(jù)語(yǔ)義描述規(guī)范；而本體論（ontology）在RDFs基礎(chǔ)上定義了領(lǐng)域共享概念的形式化顯式說(shuō)明，Ontology一般分為頂層本體、領(lǐng)域本體、任務(wù)本體、應(yīng)用本體；邏輯層則（Logic）提供了基于本體進(jìn)行邏輯推理的規(guī)則，它目前有SWRL（Semantic Web Rule Language）與ORL（OWL Rule Language）兩個(gè)提案，未形成標(biāo)準(zhǔn)。

　　相比HTML及PDF的會(huì)計(jì)信息表述形式，XML的優(yōu)勢(shì)在于可標(biāo)識(shí)信息的語(yǔ)義項(xiàng)，這種標(biāo)識(shí)是對(duì)計(jì)算機(jī)而言的。以“投資收益1 000萬(wàn)元”為例，PDF與HTML等方式只是通過(guò)網(wǎng)絡(luò)傳遞人類能通過(guò)視覺(jué)系統(tǒng)將其中的信息項(xiàng)“投資收益”與值項(xiàng)“1 000”相對(duì)應(yīng)起來(lái)的、顯示在屏幕上或打印到紙上的“電子圖紙”；而在XML里，我們可以通過(guò)標(biāo)簽來(lái)唯一地標(biāo)識(shí)信息項(xiàng)，如1000表示投資收益1 000萬(wàn)元，計(jì)算機(jī)可以輕松地通過(guò)查找各上市公司發(fā)布財(cái)務(wù)報(bào)表的固定網(wǎng)址上的標(biāo)簽來(lái)獲得各上市公司投資收益。而對(duì)PDF與HTML文檔，計(jì)算機(jī)只能將整篇的文檔匯總到一起供我們集中閱讀。

　　XML的思想精髓在于分層，實(shí)現(xiàn)“信息顯示與信息內(nèi)容相分離”、“信息內(nèi)容與信息語(yǔ)法格式相分離”、“語(yǔ)法格式與語(yǔ)義規(guī)則相分離”、“語(yǔ)義規(guī)則與本體論相分離”。分層機(jī)制將語(yǔ)義解釋轉(zhuǎn)化為了對(duì)樹(shù)形結(jié)構(gòu)文檔的解讀問(wèn)題，這使得計(jì)算機(jī)能夠使用一個(gè)相似的遞歸算法來(lái)實(shí)現(xiàn)，大大降低了工程實(shí)踐的難度，也從實(shí)踐的角度佐證了語(yǔ)義解釋亦是遞歸計(jì)算。不過(guò)不能因此而認(rèn)為樹(shù)形結(jié)構(gòu)的XML文件就完整地表示了信息語(yǔ)義關(guān)系，XML不過(guò)是信息的語(yǔ)法形式，盡管語(yǔ)義解釋的元語(yǔ)言語(yǔ)句也可以是XML（事實(shí)上Schema、RDF、OWL都采用樹(shù)形文檔結(jié)構(gòu)），但邏輯上兩者處于不同層次上。

　　狹義地講，計(jì)算機(jī)對(duì)XML的理解是根據(jù)Schema文檔定義的語(yǔ)法要素（element）及要素之間的組合關(guān)系（complexType）識(shí)別出XML實(shí)例文檔中語(yǔ)法要素，并據(jù)此建立語(yǔ)法要素與信息內(nèi)容之間的關(guān)聯(lián)。但如果沒(méi)有RDF、OWL、Logic層次的支持，計(jì)算機(jī)理解只可能是限定于特定語(yǔ)言層次上的形式化理解。從廣義上看，XML是一個(gè)包含了RDF、OWL、Logic的完整體系結(jié)構(gòu)，計(jì)算機(jī)理解實(shí)質(zhì)上是借助于遞歸算法，對(duì)各層次的關(guān)系完整把握。

　　二、XBRL的層次結(jié)構(gòu)

　　作為XML的一個(gè)應(yīng)用模式，XBRL的層次結(jié)構(gòu)也有其特點(diǎn)?？梢詫F(xiàn)有的XBRL分為三層：技術(shù)規(guī)格（specification）、分類標(biāo)準(zhǔn)（Taxonomy）和實(shí)例文檔（Instance Documents）。

　　技術(shù)規(guī)格，或稱說(shuō)明、規(guī)范，主要用于定義XBRL的各種專門(mén)術(shù)語(yǔ)，描述了XBRL文件的結(jié)構(gòu)，詳細(xì)規(guī)定了XBRL分類的標(biāo)準(zhǔn)和XBRL實(shí)例文檔的語(yǔ)法和語(yǔ)義。雖然有XML元素和屬性的語(yǔ)義上的表述，但XBRL規(guī)格是一項(xiàng)側(cè)重技術(shù)的文件，目的在于定義一項(xiàng)符合規(guī)范的XBRL文檔。

　　分類標(biāo)準(zhǔn)是財(cái)務(wù)報(bào)告發(fā)布的語(yǔ)法格式，也部分定義了各會(huì)計(jì)報(bào)表要素的“語(yǔ)義關(guān)系”。如“資產(chǎn)=負(fù)債+所有者權(quán)益”、“主營(yíng)業(yè)務(wù)收入是利潤(rùn)表的要素”、“Assets表達(dá)資產(chǎn)的概念”等等。分類標(biāo)準(zhǔn)由名為T(mén)axonomy.xsd的XML Schema文檔與相關(guān)聯(lián)的五個(gè)XML鏈接庫(kù)文件（Definition.xml，Calculation.xml， Presentation.xml，Label.xml，Reference.xml）組成，Taxonomy定義的是報(bào)表的語(yǔ)法形式，鏈接庫(kù)文件定義的是報(bào)表語(yǔ)法要素的語(yǔ)義關(guān)系，其結(jié)構(gòu)如圖2所示。

　　XML鏈接庫(kù)文件是使用鏈接語(yǔ)言（XLink）定義的，并不局限于外在形式上標(biāo)簽之間的鏈接（HTML鏈接則是外在形式上的鏈接），而是主要用來(lái)描述信息內(nèi)容標(biāo)簽（元數(shù)據(jù)）之間的聯(lián)系。XBRL的五個(gè)鏈接庫(kù)文件定義的是XBRL Schema文檔中各標(biāo)簽之間的聯(lián)系，屬于XBRL Schema的元語(yǔ)言范疇。顯然，XBRL并未遵循語(yǔ)義Web的體系結(jié)構(gòu)，其語(yǔ)義表達(dá)功能較為簡(jiǎn)單。

　　Definition鏈接庫(kù)描述Schema文件中元素概念之間的關(guān)系，這些關(guān)系可取general-special、similar-tuples、essence-alias、requires-element等四種值，分別表示一般與特殊的種屬關(guān)系、不同XML視圖中的元組間的定義等價(jià)關(guān)系、概念間的相似關(guān)系、跟隨出現(xiàn)關(guān)系。Calculation鏈接庫(kù)定義了元素間的線性運(yùn)算關(guān)系，具體關(guān)系式為“TO=FROM1*WEIGHT1+FROM2*WEIGHT2 +……+FROM-n*WEIGHT-n”。Label鏈接庫(kù)定義了Schema文檔中的元素與XML中標(biāo)記的對(duì)應(yīng)關(guān)系，實(shí)現(xiàn)一個(gè)元素與多個(gè)標(biāo)記相關(guān)聯(lián)。Presentation鏈接庫(kù)規(guī)定了元素展現(xiàn)的父子關(guān)系與兄弟元素的展現(xiàn)次序。Reference鏈接庫(kù)建立了元素到元素涵義解釋的權(quán)威參考文獻(xiàn)鏈接。Label與Presentation定義的都是XBRL實(shí)例文檔的展示問(wèn)題，而Reference顯然是為便于人類閱讀者索取各元素權(quán)威解釋而設(shè)計(jì)的，它們都不涉及信息項(xiàng)的語(yǔ)義關(guān)系定義；定義Schema元素語(yǔ)義關(guān)系的只有Definition與Calculation。

　　實(shí)例文檔是一個(gè)企業(yè)根據(jù)XBRL規(guī)范和XBRL分類標(biāo)準(zhǔn)做成的財(cái)務(wù)報(bào)表，它必須要同時(shí)滿足分類標(biāo)準(zhǔn)的定義和規(guī)范的限制。實(shí)例文檔封裝了具體的商業(yè)事實(shí)（fact），根據(jù)信息的匯集程度分為條目（item）、元組（tuple）、組（groups）三個(gè)不同層次。其中，條目通常與一個(gè)數(shù)字型的事實(shí)對(duì)應(yīng)；元組是事實(shí)的聯(lián)合體，等同于關(guān)系數(shù)據(jù)庫(kù)里的一條記錄，組是實(shí)例文檔的根結(jié)點(diǎn)，由相關(guān)聯(lián)的數(shù)據(jù)項(xiàng)的集合構(gòu)成。在不知道分類標(biāo)準(zhǔn)的情況下，實(shí)例文檔沒(méi)有任何意義。用戶需要借助與分類標(biāo)準(zhǔn)和相應(yīng)的軟件才能從XBRL實(shí)例中提取所需要的數(shù)據(jù)并加以分析。

　　可以看到，XBRL并沒(méi)有完全遵循語(yǔ)義Web的規(guī)范，試圖通過(guò)Definition鏈接庫(kù)和Calculation鏈接庫(kù)來(lái)把握財(cái)務(wù)對(duì)象的語(yǔ)義，這必將是不充分的。技術(shù)規(guī)格雖然也有一些專門(mén)術(shù)語(yǔ)語(yǔ)義層次上的表述，但總的來(lái)看，與XML存在的缺陷一樣，XBRL缺乏本體層概念關(guān)系定義和邏輯層的計(jì)算規(guī)則定義。

　　W3C也試圖致力于彌補(bǔ)這一缺陷。2004年提出標(biāo)準(zhǔn)化的本體語(yǔ)言O(shè)WL就代表了這方面的努力。OWL由OWL Lite、OWL DL（Description Logics）、OWL Full三個(gè)并列的子集構(gòu)成，OWL Lite用于表示只需一個(gè)分類層次和簡(jiǎn)單約束關(guān)系的形式語(yǔ)義關(guān)系；OWL DL用于表示需要最強(qiáng)表達(dá)力且需要保持計(jì)算的完備性（即所有結(jié)論可計(jì)算）與可判定性（所有計(jì)算能夠在有限時(shí)間內(nèi)完成）的形式語(yǔ)義關(guān)系；OWL Full用于需要最強(qiáng)表達(dá)力且無(wú)法提供計(jì)算完備性與可判定性保證的形式語(yǔ)義關(guān)系。其中，OWL DL也提供了完備的實(shí)例、類、屬性、關(guān)系等元語(yǔ)言對(duì)象的表示工具。也就是說(shuō)，OWL層提供了充分定義XBRL范疇概念關(guān)系的形式工具。

　　若OWL能夠得到充分的完善，必將為XBRL提供有力支持，彌補(bǔ)技術(shù)規(guī)范語(yǔ)義表達(dá)方面的不足?？梢栽O(shè)想，較為理想的XBRL層次關(guān)系如圖3所示。

　　三、XBRL層次結(jié)構(gòu)引致的財(cái)務(wù)數(shù)據(jù)挖掘

　　數(shù)據(jù)挖掘（Data Mining，DM）是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的，但又是潛在的有用信息和知識(shí)的過(guò)程。相對(duì)于傳統(tǒng)的數(shù)據(jù)分析，數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。

　　因?yàn)樾畔⒕哂袕?qiáng)烈的時(shí)效性，一旦為所有人所知曉，信息的價(jià)值就蕩然無(wú)存。在當(dāng)今瞬息萬(wàn)變的商業(yè)環(huán)境中，競(jìng)爭(zhēng)的主要方式是信息的競(jìng)爭(zhēng)，傳統(tǒng)的事后分析型的數(shù)據(jù)分析方法將被事前探索型的數(shù)據(jù)挖掘所取代。而與此同時(shí)，信息提供者之間也存在著激烈的競(jìng)爭(zhēng)，如財(cái)務(wù)信息與非財(cái)務(wù)信息之間的競(jìng)爭(zhēng)也日益激烈。XBRL的提出不但為財(cái)務(wù)信息提供者增加了競(jìng)爭(zhēng)的籌碼，也直接推動(dòng)了財(cái)務(wù)數(shù)據(jù)挖掘的開(kāi)展。

　　XBRL的優(yōu)勢(shì)在其清晰的層次關(guān)系和語(yǔ)義表達(dá)能力。XBRL的層次結(jié)構(gòu)在財(cái)務(wù)數(shù)據(jù)挖掘的優(yōu)勢(shì)表現(xiàn)在：

　　（一）跨平臺(tái)使用

　　由于采用了XML的架構(gòu)體系，在不同的操作系統(tǒng)下，如Windows、Unix和Linux等，XBRL文件無(wú)需修改就可以直接使用。在不同的應(yīng)用軟件中，即使所用的數(shù)據(jù)庫(kù)不同，只要轉(zhuǎn)換成XBRL格式，也可以實(shí)現(xiàn)數(shù)據(jù)的交換?？缙脚_(tái)使用的關(guān)鍵在于XBRL實(shí)現(xiàn)了語(yǔ)法格式與語(yǔ)義規(guī)則分層，在圖3中表現(xiàn)為技術(shù)規(guī)范和分類標(biāo)準(zhǔn)的分層，從而使得XBRL在不同的技術(shù)實(shí)現(xiàn)之間沒(méi)有障礙。

　?。ǘ?shù)據(jù)跟蹤

　　XBRL可以在不同的信息之間建立連接，跟蹤相關(guān)的信息線索，自頂向下地考察數(shù)據(jù)源直到底層的數(shù)據(jù)，方便了對(duì)企業(yè)報(bào)告的閱讀和數(shù)據(jù)分析。XBRL的技術(shù)結(jié)構(gòu)使其具有良好的動(dòng)態(tài)分析功能，計(jì)算機(jī)可以讀懂XBRL標(biāo)記的含義，而且操作員也可以很容易地從文檔中獲取有價(jià)值的信息。當(dāng)搜索引擎找到所需的信息時(shí)，它能進(jìn)一步追蹤下去找到數(shù)據(jù)的最初來(lái)源及其它與該信息有關(guān)的資料。同時(shí)，完善的定義與唯一的XBRL要素使信息減少了模糊性。數(shù)據(jù)跟蹤的關(guān)鍵則在于OWL與分類標(biāo)準(zhǔn)的分層結(jié)構(gòu)，通過(guò)對(duì)OWL的深入挖掘可發(fā)現(xiàn)分類標(biāo)準(zhǔn)中各元素之間的內(nèi)在聯(lián)系，在圖3中表現(xiàn)為OWL與分類標(biāo)準(zhǔn)的分層。

　?。ㄈ┧阉骺焖佟?zhǔn)確

　　XBRL使用標(biāo)簽描述數(shù)據(jù)的含義。在進(jìn)行數(shù)據(jù)搜索時(shí)，不是像HTML那樣根據(jù)字面內(nèi)容進(jìn)行搜索，而是根據(jù)標(biāo)簽的語(yǔ)義進(jìn)行定位，這樣搜索引擎就能夠快速、準(zhǔn)確地找到用戶所需的特定信息。同時(shí)，由于XBRL采用標(biāo)簽來(lái)標(biāo)記數(shù)據(jù)，可以通過(guò)應(yīng)用程序?qū)λ阉鹘Y(jié)果中的數(shù)據(jù)進(jìn)行匯總。其效率遠(yuǎn)遠(yuǎn)高于目前互聯(lián)網(wǎng)上的PDF、WORD和HTML等文件格式。而實(shí)現(xiàn)這一目標(biāo)的要點(diǎn)在于圖3中分類標(biāo)準(zhǔn)與實(shí)例文檔的分層，清晰的分類有利于滿足豐富實(shí)例中信息的挖掘。

　　XBRL清晰的層次結(jié)構(gòu)關(guān)系不但支持了數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理過(guò)程，也為各種適用于不同范圍與層次的數(shù)據(jù)挖掘工具提供了良好的材料。如在數(shù)據(jù)的預(yù)處理過(guò)程中，為對(duì)XBRL文檔進(jìn)行存儲(chǔ)和校驗(yàn)，可以借助于IPEDO XML智能處理平臺(tái)，利用其Schema Manager和XML Rule模塊在OWL和分類標(biāo)準(zhǔn)層次上搜集相關(guān)信息，然后對(duì)XBRL實(shí)例文檔進(jìn)行校驗(yàn)。

　　總之，XBRL的層次結(jié)構(gòu)特點(diǎn)為財(cái)務(wù)數(shù)據(jù)的挖掘提供了極大的方便，這是XBRL得到廣泛推崇的原動(dòng)力之一。

　　四、結(jié)論

　　XBRL承繼了XML分層的機(jī)構(gòu)特征，有利于計(jì)算機(jī)對(duì)語(yǔ)義信息的把握和數(shù)據(jù)挖掘工具的使用，這是XBRL在短短幾年的時(shí)間里得到迅猛發(fā)展的重要原因。但是，XBRL作為XML在財(cái)務(wù)方面的實(shí)現(xiàn)，也存在同樣的缺陷，缺乏本體層次上的有力支撐。相信隨著對(duì)其研究的深入開(kāi)展和各領(lǐng)域本體構(gòu)建的完善，能夠彌補(bǔ)這方面的缺陷。

　　【主要參考文獻(xiàn)】

　　[1] 李雄飛，李軍.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M].北京:高等教育出版社，2003.

　　[2] Bryan Bergeron. XBRL語(yǔ)言21世紀(jì)的財(cái)務(wù)報(bào)告[M]. 北京：中國(guó)人民大學(xué)出版社，2004.

　　[3] Tim Berners-Lee. Semantic Web - XML2000. http:∥www.w3.org/2000/Talks/ 1206-xml2k-tbl，2000-12-06.

　　[4] XBRL International. Extensible Business Reporting Language （XBRL）2.1 Specification. Http://www.xbrl.rog，2003-12-31.

責(zé)任編輯：小奇

上一篇：從細(xì)節(jié)看ERP系統(tǒng)的成熟度

下一篇：基于XBRL技術(shù)的網(wǎng)絡(luò)財(cái)務(wù)報(bào)告應(yīng)用研究