第565章 Hirsch猜想和星星模型的關聯
第565章 Hirsch猜想和星星模型的關聯
至于和雪花型模型之間的優劣對比。
也不知道自己這段時間都不怎么研究星球模型的緣故,這個時候進行和雪花型模型之間的相關對比,葉秋覺得自己一眼就看出來了,這兩者之間的優劣的比對。
就是不知道這個比對究竟是不是正確的。
也正是因為這優劣對比之間的關系,葉秋發現自己好像隱隱的抓到了星型模型當中的關鍵點。
如果自己發現的這個關鍵點以及優劣對比是正確的,那對于自己來說對于星星模型的相關研究無異于是得到了一個更加,關鍵的結論也是能夠破解星型模型最重要的一點。
相比于雪花型,星型模型中主要數據存儲在事實表中,事實表中存儲了業務的大部分核心信息,可讀性比較好。維度表只和事實表關聯,數據結構看起來也更加容易理解。
相比于寬表,星形模式將事實表和維度表拆開,數據結構相對靈活些,如維度表數據變化(外鍵不變)不會影響整個數據結構。
至于缺點的話,那也是一眼就能看得出來。
畢竟優點已經是非常顯而易見的了,缺點相對來說就不是特別的多,但是如果真的硬是從里面尋找缺點,還是能夠看出一些相關的缺陷。
隨著現在業務的復雜,數據結構設計時單張事實表內很難存儲用戶需要的所有數據,所以一般情況下需要提前對多張事實表數據抽取到一張事實表內,形成一張寬表,所以星型模型目前主要是事實寬表 維表方式組成,所以寬表的缺點在星型模型中同樣存在。星型架構中多維數據集的每一個維度都直接與事實表相連接,不存在漸變維度,所以數據有一定的冗余。
如果是舉個例子的話,比如在地區維度表中,存在國家A省 B的城市 C以及國家A省 B的城市 D兩條記錄,那么國家 A和省B的信息分別存儲了兩次。數據存在冗余。
星型模型中維表必須和事實表關聯,這樣要求事實表中必須包含指向維表的外鍵,事實表數據結構相對固定,而用戶的數據分析需求可能靈活多變。
如果像一些層級不固定的機構,恐怕事實表都不一定能生成,那么單個事實寬表就無法描述所有需求,只能跟隨業務需求,有針對的生成相關的寬表,如果這個過程繼續依賴于技術人員,就會導致在線分析無法"在線"。
這就是星型模型在實際應用當中,所能產生的各種優點以及所要面對的困難。正是因為有這些的缺點,這才導致星星模型到了,現在都不曾有什么人能夠破解出來。
雖然葉秋一下子鉆研到了現在這個地步,但也正是因為中間有南移,愉悅的相關困難阻隔在中間,就比如說方才的那些層級不固定機構。
這就是困擾著不少數學家止步于此的緣由之一。
不過,對于今天晚上的研究,葉秋也大致做出了一個相關的總結。
雖然星型模型是一種非規范化的模型,但是由于它簡單高效,所以在冗余可以接受的前提下,實際運用中星型模型使用更多,也更有效率。
比如在數據倉庫建設中,大多時候比較適合使用星型模型構建底層數據表。
星型模型也適用于處理簡單的查詢,而且對OLAP的分析引擎支持比較友好,適合做指標分析。但是如果維表的數據量比較大,需要進行更加復雜的層次分析時,維度必須規范化,此時可以考慮采用雪花型模型。
雪花型模型滿足范式,可以解決星型模型存在的問題。
不過,如果真的想要規范性的解決星型模型的相關難題,還是得需要進一步的鉆研,不能完全的依賴雪花型模型。
研究到這一步,有關于星型模型的實際應用方面葉秋已經得到了突破性的進展。
對于理論上面的相關數據研究,在這一方面上,葉秋仍然還是沒有什么更大的進展。
不過,葉秋在認真的研究鉆研之下,卻驚喜的在意外之間發現,這個星型模型的猜想,和十分著名的Hirsch猜想息息相關,好像有著千絲萬縷的關系。
這實在是一個意外之喜,如果不是葉秋在超級電腦當中進行瀏覽網頁的時候,無意之間發現了這個猜想,進而只是簡單的看了一下。
然后發現這個所謂的Hirsch猜想,不管是在哪一方面上都非常符合新型模型的數據研究理論猜想。
如果真的能夠對這一Hirsch猜想進行破解的話,那心情模型的破解也根本就不在什么話下了!
葉秋心中一喜,原本他是打算在這個時候就睡覺的,可是這時既然已經有了突破性的進展,他也沒有那個心思睡覺了。
靈感要知道是稍縱即逝的,如果他能趁著這么一個機會進行再一步的研究和發現,肯定還會有更加進一步的進展。
可如果他這個時候選擇去休息,再一次醒過來的時候,就不一定會抓住這難得的靈感了!
更何況他現在還在這時間膠囊當中,不管研究多少天的時間,都不會影響他在現實當中的休息。
就算在這里待上二十五六天,也只是在外面的一個小時而已。
這么一想,葉秋干脆就離開時間膠囊,在自己房間的廚房那邊搜羅來了自己買來的不少速食品,作為自己在時間膠囊當中工作學習之余的飯菜。
然后就開始沉浸在學習當中,不住的研究著Hirsch猜想。
說道這個猜想,那就不得不提起這個猜想的相關發展。
Hirsch猜想是1957年針對線性規劃中單純形算法復雜度提出的,而出處則是參考1000個科學難題,數學卷,袁亞湘的“凸多面體的d-步猜想”。
其描述如下:假設P為d維多面體,且面數為n,那么多面體 P直徑不超過n-d。
這里的直徑是組合意義上的:P中兩個頂點的距離即指連接該兩個頂點的最小邊數,而 P的直徑則為P中兩頂點之間的最大距離。
1963年,J.Dantzig在一篇關于線性規劃的monograph里把這個猜測公開了,事實上,這個猜想和求解線性規劃的經典算法單純形法(simplex method)的算法復雜度非常相關。
(https://www.dzxsw.cc/book/59215271/25159668.html)
1秒記住大眾小說網:www.dzxsw.cc。手機版閱讀網址:m.dzxsw.cc