【1.0時(shí)代? ?終端+Excel】
1.0時(shí)代,我們獲取數(shù)據(jù)的方式是在終端點(diǎn)開瀏覽器,把數(shù)據(jù)通過 Excel 下載到本地中使用。Excel 中各種透視表與插件組合滿足了絕大多數(shù)小批量數(shù)據(jù)使用的場景。Excel+終端瀏覽器,基本解決了小批量數(shù)據(jù)使用的問題。
【2.0時(shí)代? ?SQL+單一數(shù)據(jù)來源】
隨著研究的深入、數(shù)據(jù)維度的拓展、數(shù)據(jù)規(guī)范的清晰,結(jié)構(gòu)化數(shù)據(jù)開始成為標(biāo)配。相比于過去的數(shù)據(jù)瀏覽器提取方式,SQL 通過一個(gè)或幾個(gè)語句就能實(shí)現(xiàn)全部數(shù)據(jù)的提取,讓用戶倍感輕松。信息化帶來的效率提升,仿佛經(jīng)歷了“工業(yè)革命”般的體驗(yàn)。
【2.0時(shí)代后期? ?更高的算力需求】
逐漸地,SQL 也開始暴露一些無法滿足研究需求的問題。假如研究的重心放在組合管理、因子挖掘、風(fēng)險(xiǎn)控制領(lǐng)域,SQL 似乎既不能滿足計(jì)算要求、也無法滿足數(shù)據(jù)處理的時(shí)效性要求,這意味著,用戶需要花費(fèi)大量的精力提高一點(diǎn)點(diǎn)效率。
于是,DolphinDB 與聚源也開始給
近日,書香門地集團(tuán)檢測中心參加2023年林產(chǎn)品檢驗(yàn)檢測能力驗(yàn)證活動(dòng)中人造板甲醛釋放量、吸水厚度膨脹率和密度3個(gè)檢測項(xiàng)目,均取得滿意結(jié)果,這已是書香門地集團(tuán)檢測中心連續(xù)4年取得該榮譽(yù)。
該活動(dòng)由國家林業(yè)和草原局林產(chǎn)品質(zhì)量和標(biāo)準(zhǔn)化研究中心組織、國家人造板與木竹制品質(zhì)量檢驗(yàn)中心等承辦,是一份給承擔(dān)林產(chǎn)品質(zhì)量監(jiān)測任務(wù)的各級(jí)檢驗(yàn)檢測機(jī)構(gòu)和自愿參與的實(shí)驗(yàn)室的年度盲樣考卷,是評價(jià)檢驗(yàn)檢測實(shí)驗(yàn)室檢測能力的有效手段。
書香門地集團(tuán)檢測中心連續(xù)4年取得國家林業(yè)和草原局林產(chǎn)品質(zhì)量和標(biāo)準(zhǔn)化研究中心結(jié)果滿意的考核,充分說明書香門地集團(tuán)檢測能力持續(xù)保證結(jié)果的準(zhǔn)確性。年考并不是終點(diǎn),而是一個(gè)新的開始。在中國林科院木工所的培訓(xùn)和指導(dǎo)下,書香門地集團(tuán)充分利用通知結(jié)果改進(jìn)檢測中心檢測水平,確保檢驗(yàn)檢測能力持續(xù)滿足要求并不斷提升。
未來,書香門地集團(tuán)檢測中心將不斷提高質(zhì)量控制與運(yùn)行管理水平,持續(xù)加強(qiáng)檢驗(yàn)檢測能力建設(shè),擴(kuò)展更多檢測項(xiàng)目,為原物料和產(chǎn)品在采購、研發(fā)和生產(chǎn)等各個(gè)環(huán)節(jié)提供數(shù)據(jù)支撐,為書香門地高質(zhì)量發(fā)展保駕護(hù)航,為消費(fèi)者甄選優(yōu)質(zhì)健康家居產(chǎn)品。
合作探索一種全新的業(yè)務(wù)模式。
【3.0時(shí)代? ?探索高質(zhì)量+高性能】
高質(zhì)量數(shù)據(jù)與高性能數(shù)據(jù)庫的融合是市場對3.0時(shí)代新業(yè)務(wù)場景的期待,但目前來看仍存在一些難題待解。以MySQL為例,在海量的時(shí)序數(shù)據(jù)場景下存在一些問題:
·存儲(chǔ)成本大:對于時(shí)序數(shù)據(jù)壓縮不佳,需占用大量機(jī)器資源。
·維護(hù)成本高:單機(jī)系統(tǒng),需要在上層人工的分庫分表,維護(hù)成本高。
·寫入吞吐低:單機(jī)寫入吞吐低,很難滿足時(shí)序數(shù)據(jù)千萬級(jí)的寫入壓力(針對tick級(jí)數(shù)據(jù)場景)。
·查詢性能差:海量數(shù)據(jù)的聚合分析性能差。
在3.0時(shí)代的探索過程中,DolphinDB 與聚源數(shù)據(jù)達(dá)成合作,我們?yōu)闃?gòu)建一站式行情數(shù)據(jù)庫服務(wù)模式共同努力。
全新的業(yè)務(wù)場景下,用戶可以通過 DolphinDB 訪問和調(diào)用聚源數(shù)據(jù)庫的各類數(shù)據(jù),快速實(shí)現(xiàn)高頻數(shù)據(jù)對接、存儲(chǔ)、查詢、指標(biāo)計(jì)算、因子研究等,助力實(shí)現(xiàn)更便捷、更高效的投研。海量數(shù)據(jù)意味著數(shù)據(jù)質(zhì)量高、歷史可追溯時(shí)間長、維度多,因此全量數(shù)據(jù)供應(yīng)商顯得尤為重要,而數(shù)據(jù)質(zhì)量是一切的基礎(chǔ)。
從數(shù)據(jù)質(zhì)量的角度:
聚源數(shù)據(jù)庫以金融證券為核心,服務(wù)內(nèi)容涵蓋投研數(shù)據(jù)、財(cái)富數(shù)據(jù)、固收數(shù)據(jù)、風(fēng)險(xiǎn)數(shù)據(jù)、ESG 數(shù)據(jù)等,廣泛應(yīng)用于金融資訊展示、金融投研、大數(shù)據(jù)分析、風(fēng)控、量化回測、金融監(jiān)管等多個(gè)領(lǐng)域,經(jīng)過二十余年的發(fā)展,公司與國內(nèi)券商、基金、保險(xiǎn)、信托、銀行、期貨、資產(chǎn)管理公司等機(jī)構(gòu)建立了廣泛的業(yè)務(wù)合作,確立了在中國金融數(shù)據(jù)服務(wù)領(lǐng)域的領(lǐng)先地位,是中國最優(yōu)秀的金融資訊服務(wù)供應(yīng)商之一。
從數(shù)據(jù)庫性能的角度:
SQL 或者單一 Python 的處理方法,無論便攜性還是成本都不算友好。比如計(jì)算一個(gè)投資組合的協(xié)方差矩陣,無法在 SQL 中完成,需要借助額外的 Python 反推回?cái)?shù)據(jù)庫。高性能時(shí)序數(shù)據(jù)庫 DolphinDB 有出色的內(nèi)置函數(shù)、多范式的腳本語言、靈活的自定義計(jì)算,無論是在數(shù)據(jù)存儲(chǔ)端,還是在復(fù)雜分析端,都是比 SQL 和 Python 更優(yōu)的選擇。以下圖為例:
高質(zhì)量數(shù)據(jù)、高性能數(shù)據(jù)庫二者怎么融合?從最傳統(tǒng)的量化場景出發(fā),以聚源提供的因子庫為例。
DolphinDB 支持直接加工底層數(shù)據(jù)結(jié)果并且及時(shí)反饋結(jié)果到使用者手中,量化場景下的基礎(chǔ)因子、特色因子、回測框架都可以直接依托其后的數(shù)據(jù)基準(zhǔn)進(jìn)行融合。這些步驟的融合幫助用戶解決數(shù)據(jù)儲(chǔ)存量極大、讀取緩慢的通病。也就意味著,當(dāng)擁有了捆綁好的高質(zhì)量基礎(chǔ)數(shù)據(jù)與高性能平臺(tái)的時(shí)候,用戶便有了所有想要的內(nèi)容。同時(shí),因?yàn)?DolphinDB 自定義的優(yōu)勢加上聚源數(shù)據(jù)除常規(guī)的披露數(shù)據(jù)外,還有包括但不限于其它主流另類數(shù)據(jù)(司法,工商,輿情,預(yù)期、宏觀行業(yè)等)等,極大方便機(jī)構(gòu)客戶做特色因子挖掘和回測的工作流程,將原本離散化的工作任務(wù)集成式布置在 DolphinDB 上,真正發(fā)揮出1+1融合但是產(chǎn)出遠(yuǎn)大于2的效果。
數(shù)據(jù)質(zhì)量與數(shù)據(jù)庫性能的優(yōu)勢相互結(jié)合,機(jī)構(gòu)可以直接享受到聚源高質(zhì)量數(shù)據(jù)加 DolphinDB 高性能數(shù)據(jù)庫的一站式服務(wù)。
除此之外,分布式高性能的數(shù)據(jù)存儲(chǔ),必然對高頻率的數(shù)據(jù)量處理有著顯著優(yōu)勢,對于聚源在金融全場景下涵蓋的各更新頻率不一的數(shù)據(jù),科學(xué)合理的插值方法,是提高數(shù)據(jù)頻率的有效手段;因子算法部署在更為高頻的數(shù)據(jù)空間(如 Alpha191 算法由日K,調(diào)整為 1分鐘K),也是挖掘非線性因子的,進(jìn)入市場顆?;潭雀铑I(lǐng)域的主要路徑。數(shù)據(jù)升頻與 DolphinDB 的高性能協(xié)作,勢必會(huì)開辟量化數(shù)據(jù)場景的新賽道。
這也意味著,3.0時(shí)代將迎來數(shù)據(jù)庫與編程語言的融合。
在傳統(tǒng)的數(shù)據(jù)庫時(shí)代,我們更看重?cái)?shù)據(jù)的寫入,所以我們強(qiáng)調(diào)數(shù)據(jù)庫的一致性、原子性、持久性等,而用于分析的 SQL 語句功能則相對簡單,復(fù)雜的分析和計(jì)算通常由更高級(jí)的編程語言(如 C++, Python 等)來完成。在海量數(shù)據(jù)時(shí)代,我們更看重?cái)?shù)據(jù)的讀取,也就是通過對海量數(shù)據(jù)的分析,發(fā)掘數(shù)據(jù)背后的價(jià)值,數(shù)據(jù)分析的時(shí)效性則對企業(yè)的競爭能力至關(guān)重要。未來 SQL 語句和更高級(jí)的編程語言也將走向融合,高質(zhì)量的數(shù)據(jù)+高性能的數(shù)據(jù)庫將解決數(shù)據(jù)來源廣、時(shí)效性差、成本開銷大等一系列長期困擾市場的難題。
基于此,DolphinDB 與聚源,在路上。
相關(guān)稿件