• <input id="zdukh"></input>
  • <b id="zdukh"><bdo id="zdukh"></bdo></b>
      <b id="zdukh"><bdo id="zdukh"></bdo></b>
    1. <i id="zdukh"><bdo id="zdukh"></bdo></i>

      <wbr id="zdukh"><table id="zdukh"></table></wbr>

      1. <input id="zdukh"></input>
        <wbr id="zdukh"><ins id="zdukh"></ins></wbr>
        <sub id="zdukh"></sub>
        公務員期刊網(wǎng) 論文中心 正文

        關聯(lián)分析下的房產(chǎn)檔案信息管理

        前言:想要寫出一篇引人入勝的文章?我們特意為您整理了關聯(lián)分析下的房產(chǎn)檔案信息管理范文,希望能給你帶來靈感和參考,敬請閱讀。

        關聯(lián)分析下的房產(chǎn)檔案信息管理

        關鍵詞:高校房產(chǎn)檔案;關聯(lián)分析;Apriori算法

        高校房產(chǎn)檔案種類繁多,時間跨度長,載體多樣,在立卷和著錄階段忽視了案卷之間隱含的業(yè)務聯(lián)系,使得數(shù)據(jù)信息呈孤立狀態(tài),難以挖掘出檔案之間潛在的信息,不利于用戶查詢使用。本文將檔案信息關聯(lián)分析技術應用于高校房產(chǎn)檔案管理,嘗試解決檔案信息孤立分散的問題,充分挖掘檔案之間的隱含聯(lián)系,對檔案進行深層次的二次開發(fā)利用。

        一、關聯(lián)規(guī)則分析和Apriori算法

        關聯(lián)分析又稱為關聯(lián)規(guī)則挖掘,是在信息載體中查找存在于項目集合之間的頻繁模式、相關性或因果結(jié)構。Apriori算法是最具影響力的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法之一。該算法的基本思想是利用迭代的方法找出數(shù)據(jù)值中頻繁出現(xiàn)的集合,從這些集合中發(fā)現(xiàn)它們之間的關聯(lián)規(guī)則。一般而言Apriori算法使用支持度作為判斷頻繁項集的標準。如果將Arpriori算法用到房產(chǎn)檔案管理中,檔案中有教職工購買房改房資料、申請貨幣補貼資料、基建資料、權籍資料等,這些資料都可以看成一個個的項目集合,可以用關聯(lián)分析找出所有集合中頻繁出現(xiàn)的集合,設定一個支持度閾值α,出現(xiàn)頻率高于閾值α的集合即是我們要找的頻繁集合。算法用逐層迭代的方法實現(xiàn)。第一步,根據(jù)算法對整個數(shù)據(jù)集進行掃描,獲取所有數(shù)據(jù)集,此時還未計算頻繁項集。第二步,計算各數(shù)據(jù)集的支持度,減除支持度低于閾值α的項集,所保留的項集為頻繁k項集。如果得到的k項集為空,則返回頻繁k-1項集的集合作為算法結(jié)果。如果得到的k項集只有一項,則直接返回頻繁k項集的集合作為算法結(jié)果。否則,令k項集為k+1項集,返回第二步,如此往復。最終得到所有頻繁項集,也就是在所歸檔的房產(chǎn)檔案中出現(xiàn)最頻繁的文檔資料。第三步,找出k項頻繁集各項之間的關聯(lián)。例如,教職工購買公有住房審批表的出現(xiàn)極有可能伴隨著購房買賣契約的出現(xiàn),購房票據(jù)也應該隨之一起出現(xiàn);或者學校基建項目資料的出現(xiàn)肯定會伴隨著項目審批資料等等。各頻繁項集彼此之間同時發(fā)生的概率就是它們的置信度。下面通過一個虛擬的例子來分析Apriori算法在高校房產(chǎn)檔案中應用的實際意義。

        二、Apriori算法在房產(chǎn)檔案中的應用

        高校教職工住房改革與福利分房的資料是高校房產(chǎn)檔案中重要的組成部分,也是最能體現(xiàn)房產(chǎn)檔案復雜性的一部分,在日常管理工作中具有較高的查詢利用率。利用Apriori算法在模擬的房產(chǎn)檔案數(shù)據(jù)中進行關聯(lián)分析實驗。實驗數(shù)據(jù)集采用50條教職工房改信息,Apriori算法是基于《機器學習實戰(zhàn)》中python代碼,最小支持度閾值設為0.6,置信度參數(shù)設置為0.85。測試數(shù)據(jù)集中事務ID為數(shù)據(jù)條目,如01條事務數(shù)據(jù)表示教職工A同時有購房申請表、購房審批表、購房買賣契約、購房票據(jù)、貨幣補貼審批表和退款票據(jù)這6種資料。而02條事務數(shù)據(jù)表示教職工B沒有這些資料,只有貨幣補貼審批表、退房協(xié)議和會議記錄上討論的關于住房問題的解決方案,以此類推。數(shù)據(jù)集如表1所示。運行代碼,實驗結(jié)果顯示在測試數(shù)據(jù)中。當支持度閾值α設置為0.6的情況下,共有10個頻繁項集。見表2、表3。它意味著如果用戶來查詢相關檔案,85%的教職工可以查詢到申領過的住房貨幣補貼記錄,70%的教職工有學校分配住房的記錄或者職稱和定級文件,65%的教職工提交過購房申請表,70%的教職工提交過貨幣補貼審批表,70%的教職工提交過購房審批表并簽署過購房買賣契約。退房協(xié)議和會議記錄上提及到住房解決方案的資料歸檔的數(shù)量不太多,支持度沒有達到閾值0.6。將支持度閾值α調(diào)整為0.5查看結(jié)果,發(fā)現(xiàn)頻繁項集增加了許多,從表2所示結(jié)果可知55%的查詢者可以檢索到自己的購房票據(jù)。多次調(diào)整支持度閾值可準確定量地知曉數(shù)據(jù)集中各類案卷的分布情況。另外,從表2中可以看出,購房申請表和購房審批表及購房買賣契約同時出現(xiàn)的概率為60%,表示提交過購房申請的教職工中60%的人最后都購買了公房。購房申請表和購房買賣契約同時出現(xiàn)的概率為70%,說明大部分教職工這兩樣材料都齊全。根據(jù)這些結(jié)論,檔案管理人員可以快速知悉數(shù)據(jù)庫中各類資料的數(shù)量比例,做到心中有數(shù),查詢有的放矢。實驗第二部分計算了各頻繁項集的置信度,置信度定量地估算出所分析得到的關聯(lián)規(guī)則的準確度,也即可信度。見表4。由表4所示的實驗結(jié)果可知,上一步得出的購房審批表和購房買賣契約的共現(xiàn)概率70%(支持度),其置信度為100%,可信度非常高。購房申請表和購房審批表共現(xiàn)概率60%的置信度為92.3%。置信度的計算可以提供使用關聯(lián)規(guī)則的依據(jù),首先使用置信度高的關聯(lián)規(guī)則,提高檔案查詢效率。

        在實際房產(chǎn)檔案管理工作中,檔案管理人員可以利用關聯(lián)分析規(guī)則提高檔案檢索效率和查全率。例如,需要查詢教職工A十幾年前的住房記錄,但是在分房記錄的數(shù)據(jù)里沒有找到該資料,是否就意味著這份資料遺失或沒有歸檔呢?依據(jù)規(guī)則,貨幣補貼審批表對分房記錄的支持度為0.65,意味著檢索到A的貨幣補貼審批表就有65%的概率可以查詢到A的分房記錄材料,這一推測的置信度為92.9%,可信程度很高,因此可以從貨幣補貼審批表作為突破口做新的嘗試。查詢A的貨幣補貼審批表發(fā)現(xiàn)當年所填寫的房屋地址與現(xiàn)在所用的地址名稱不一致,是變更前的地址,因為時間間隔久遠不少人已經(jīng)不知道原來的地址名稱。檢索舊地址最后找到A的分房記錄,問題迎刃而解。可見關聯(lián)分析規(guī)則的應用能為某些檢索難題提供思路和捷徑。同樣,對于很多歷史悠久的高校來說,不少建筑經(jīng)歷過更名、改造、擴建等變動,在查閱老舊圖紙或資料時常常遇到困難,輸入的關鍵字與當時著錄的關鍵字不匹配,檢索不到想要的檔案。利用關聯(lián)分析找到關聯(lián)緊密的材料,很大程度上可以提高檔案檢索的查全性。最后,檔案檔案管理人員可以依據(jù)實驗結(jié)果發(fā)現(xiàn)管理中的疏漏。購房票據(jù)的支持度明顯小于購房審批表和購房買賣契約,說明不少購房者的購房票據(jù)沒有檢索到,這就需要檔案管理人員查驗是否由于票據(jù)遺失,或是著錄過程中重要信息沒有提取導致沒有檢索到,找到問題所在,完善檔案管理。綜上所述,關聯(lián)分析算法的應用可以提高高校房產(chǎn)檔案信息化建設的效益。但是,現(xiàn)階段高校房產(chǎn)檔案管理信息化亟待解決的一個困難是將多源異構的數(shù)據(jù)信息化,以便能從不同的數(shù)據(jù)庫信息中挖掘潛在信息,提高檔案的利用價值。

        參考文獻:

        [1](美)PeterHarrington.機器學習實戰(zhàn)[M].李銳,李鵬,曲亞東,王斌,譯.人民郵電出版社,2013.

        [2]郭雪薇,董晶.基于特征關聯(lián)分析的檔案信息關聯(lián)分析模型[J].電子設計工程,2019(27):47-52.

        [3]呂元智.數(shù)字檔案資源知識“關聯(lián)”組織研究[J].檔案學研究,2012(6):44-48.

        [4]梁麗燕.關聯(lián)規(guī)則挖掘Apriori算法在數(shù)字檔案系統(tǒng)中的應用研究[J].現(xiàn)代計算機,2011(13):7-10.

        [5]許惠瑋.基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究[J].北京檔案,2012(9):29-30.

        [6]左娜,張衛(wèi)東,賈瓊.基于關聯(lián)數(shù)據(jù)的檔案文化資源整合研究[J].蘭臺世界,2018(2):21-25.

        [7]陳源.數(shù)據(jù)挖掘在高校檔案管理中的應用研究[J].辦公室業(yè)務,2012(22):144-145.

        作者:曹晨 單位:蘇州大學檔案館

        无码人妻一二三区久久免费_亚洲一区二区国产?变态?另类_国产精品一区免视频播放_日韩乱码人妻无码中文视频
      2. <input id="zdukh"></input>
      3. <b id="zdukh"><bdo id="zdukh"></bdo></b>
          <b id="zdukh"><bdo id="zdukh"></bdo></b>
        1. <i id="zdukh"><bdo id="zdukh"></bdo></i>

          <wbr id="zdukh"><table id="zdukh"></table></wbr>

          1. <input id="zdukh"></input>
            <wbr id="zdukh"><ins id="zdukh"></ins></wbr>
            <sub id="zdukh"></sub>
            日本国产欧美大码a蜜糖视频 | 日本高新在线亚洲视频观看 | 中文字幕巨大的乳专区 | 日韩国产精品免费人成视频 | 日本特级片视频站 | 亚洲无AV码一区二区三区 |