序列化

標籤: 

該主題包含 0 則回覆,有 1 個參與人,並且由  Teddy6 年, 9 月 前 最後更新。

正在檢視 1 篇文章 - 1 至 1 (共計 1 篇)
  • 作者
    文章
  • #1324

    Teddy
    參與者

    轉載自廖雪峰的官方網站

    在程式運行的過程中,所有的變數都是在記憶體中,比如,定義一個dict:
    d = dict(name='Bob', age=20, score=88)

    可以隨時修改變數,比如把name改成’Bill’,但是一旦程式結束,變數所佔用的記憶體就被作業系統全部回收。如果沒有把修改後的’Bill’存儲到磁片上,下次重新運行程式,變數又被初始化為’Bob’。

    我們把變數從記憶體中變成可存儲或傳輸的過程稱之為序列化,在Python中叫pickling,在其他語言中也被稱之為serialization,marshalling,flattening等等,都是一個意思。

    序列化之後,就可以把序列化後的內容寫入磁片,或者通過網路傳輸到別的機器上。

    反過來,把變數內容從序列化的物件重新讀到記憶體裡稱之為反序列化,即unpickling。

    Python提供了pickle模組來實現序列化。

    首先,我們嘗試把一個物件序列化並寫入檔:

    >>> import pickle
    >>> d = dict(name='Bob', age=20, score=88)
    >>> pickle.dumps(d)
    b'\x80\x03}q\x00(X\x03\x00\x00\x00ageq\x01K\x14X\x05\x00\x00\x00scoreq\x02KXX\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Bobq\x04u.'

    pickle.dumps()方法把任意物件序列化成一個bytes,然後,就可以把這個bytes寫入檔。或者用另一個方法pickle.dump()直接把物件序列化後寫入一個file-like Object:

    >>> f = open('dump.txt', 'wb')
    >>> pickle.dump(d, f)
    >>> f.close()

    看看寫入的dump.txt檔,一堆亂七八糟的內容,這些都是Python保存的物件內部資訊。

    當我們要把物件從磁片讀到記憶體時,可以先把內容讀到一個bytes,然後用pickle.loads()方法反序列化出物件,也可以直接用pickle.load()方法從一個file-like Object中直接反序列化出物件。我們打開另一個Python命令列來反序列化剛才保存的對象:

    >>> f = open('dump.txt', 'rb')
    >>> d = pickle.load(f)
    >>> f.close()
    >>> d
    {'age': 20, 'score': 88, 'name': 'Bob'}

    變數的內容又回來了!

    當然,這個變數和原來的變數是完全不相干的物件,它們只是內容相同而已。

    Pickle的問題和所有其他程式設計語言特有的序列化問題一樣,就是它只能用於Python,並且可能不同版本的Python彼此都不相容,因此,只能用Pickle保存那些不重要的資料,不能成功地反序列化也沒關係。

    JSON

    如果我們要在不同的程式設計語言之間傳遞物件,就必須把物件序列化為標準格式,比如XML,但更好的方法是序列化為JSON,因為JSON表示出來就是一個字串,可以被所有語言讀取,也可以方便地存儲到磁片或者通過網路傳輸。JSON不僅是標準格式,並且比XML更快,而且可以直接在Web頁面中讀取,非常方便。

    JSON表示的物件就是標準的JavaScript語言的物件,JSON和Python內置的資料類型對應如下:
    (python010.png)

    Python內置的json模組提供了非常完善的Python物件到JSON格式的轉換。我們先看看如何把Python物件變成一個JSON:

    >>> import json
    >>> d = dict(name='Bob', age=20, score=88)
    >>> json.dumps(d)
    '{"age": 20, "score": 88, "name": "Bob"}'

    dumps()方法返回一個str,內容就是標準的JSON。類似的,dump()方法可以直接把JSON寫入一個file-like Object。

    要把JSON反序列化為Python物件,用loads()或者對應的load()方法,前者把JSON的字串反序列化,後者從file-like Object中讀取字串並反序列化:

    >>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
    >>> json.loads(json_str)
    {'age': 20, 'score': 88, 'name': 'Bob'}

    由於JSON標準規定JSON編碼是UTF-8,所以我們總是能正確地在Python的str與JSON的字串之間轉換。

    JSON進階

    Python的dict物件可以直接序列化為JSON的{},不過,很多時候,我們更喜歡用class表示物件,比如定義Student類,然後序列化:

    import json
    
    class Student(object):
        def __init__(self, name, age, score):
            self.name = name
            self.age = age
            self.score = score
    
    s = Student('Bob', 20, 88)
    print(json.dumps(s))

    運行代碼,毫不留情地得到一個TypeError:

    Traceback (most recent call last):
      ...
    TypeError: <__main__.Student object at 0x10603cc50> is not JSON serializable
    

    錯誤的原因是Student物件不是一個可序列化為JSON的物件。

    如果連class的實例物件都無法序列化為JSON,這肯定不合理!

    別急,我們仔細看看dumps()方法的參數列表,可以發現,除了第一個必須的obj參數外,dumps()方法還提供了一大堆的可選參數:
    https://docs.python.org/3/library/json.html#json.dumps

    這些可選參數就是讓我們來定制JSON序列化。前面的代碼之所以無法把Student類實例序列化為JSON,是因為預設情況下,dumps()方法不知道如何將Student實例變為一個JSON的{}物件。

    可選參數default就是把任意一個物件變成一個可序列為JSON的物件,我們只需要為Student專門寫一個轉換函數,再把函數傳進去即可:

    def student2dict(std):
        return {
            'name': std.name,
            'age': std.age,
            'score': std.score
        }

    這樣,Student實例首先被student2dict()函數轉換成dict,然後再被順利序列化為JSON:

    >>> print(json.dumps(s, default=student2dict))
    {"age": 20, "name": "Bob", "score": 88}

    不過,下次如果遇到一個Teacher類的實例,照樣無法序列化為JSON。我們可以偷個懶,把任意class的實例變為dict:

    print(json.dumps(s, default=lambda obj: obj.__dict__))
    

    因為通常class的實例都有一個__dict__屬性,它就是一個dict,用來存儲執行個體變數。也有少數例外,比如定義了__slots__的class。

    同樣的道理,如果我們要把JSON反序列化為一個Student物件實例,loads()方法首先轉換出一個dict物件,然後,我們傳入的object_hook函數負責把dict轉換為Student實例:

    def dict2student(d):
        return Student(d['name'], d['age'], d['score'])

    運行結果如下:

    >>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
    >>> print(json.loads(json_str, object_hook=dict2student))
    <__main__.Student object at 0x10cd3c190>
    

    列印出的是反序列化的Student實例物件。

    小結

    Python語言特定的序列化模組是pickle,但如果要把序列化搞得更通用、更符合Web標準,就可以使用json模組。

    json模組的dumps()和loads()函數是定義得非常好的介面的典範。當我們使用時,只需要傳入一個必須的參數。但是,當默認的序列化或反序列機制不滿足我們的要求時,我們又可以傳入更多的參數來定制序列化或反序列化的規則,既做到了介面簡單易用,又做到了充分的擴展性和靈活性。

    附加檔案:
    你必須 登入 才能查看附件檔案。
正在檢視 1 篇文章 - 1 至 1 (共計 1 篇)

抱歉,回覆主題必需先登入。