《PHP學習:變量在 PHP7 內部的實現(二)》要點:
本文介紹了PHP學習:變量在 PHP7 內部的實現(二),希望對您有用。如果有疑問,可以聯系我們。
在上篇文章給大家介紹了變量在 PHP7 內部的實現(一),本篇繼續給大家介紹php7內部實現相關知識,感興趣的朋友通過本篇文章一起學習吧.PHP編程
本文第一部分和第二均翻譯自Nikita Popov(nikic,PHP 官方開發組成員,柏林科技大學的學生) 的 博客 .為了更符合漢語的閱讀習慣,文中并不會逐字逐句的翻譯.PHP編程
要理解本文,你應該對 PHP5 中變量的實現有了一些了解,本文重點在于解釋 PHP7 中 zval 的變化.PHP編程
第一部分講了 PHP5 和 PHP7 中關于變量最基礎的實現和變化.這里再重復一下,主要的變化就是 zval 不再單獨分配內存,不本身存儲引用計數.整型浮點型等簡單類型直接存儲在 zval 中.復雜類型則通過指針指向一個獨立的結構體.PHP編程
復雜的 zval 數據值有一個共同的頭,其布局由 zend_refcounted 定義:PHP編程
struct _zend_refcounted { uint32_t refcount; union { struct { ZEND_ENDIAN_LOHI_3( zend_uchar type, zend_uchar flags, uint16_t gc_info) } v; uint32_t type_info; } u; };
這個頭存儲有 refcount (引用計數),值的類型 type 和循環回收的相關信息 gc_info 以及類型標記位 flags .PHP編程
接下來會對每種復雜類型的實現單獨進行分析并和 PHP5 的實現進行比擬.引用雖然也屬于復雜類型,但是上一部分已經介紹過了,這里就不再贅述.另外這里也不會講到資源類型(因為作者覺得資源類型沒什么好講的).PHP編程
字符串PHP編程
PHP7 中定義了一個新的布局體 zend_string 用于存儲字符串變量:PHP編程
struct _zend_string { zend_refcounted gc; zend_ulong h; /* hash value */ size_t len; char val[1]; };
除了引用計數的頭以外,字符串還包括哈希緩存 h ,字符串長度 len 以及字符串的值 val .哈希緩存的存在是為了防止使用字符串做為 hashtable 的 key 在查找時需要重復計算其哈希值,所以這個在使用之前就對其進行初始化.PHP編程
如果你對 C 語言了解的不是很深入的話,可能會覺得 val 的定義有些奇怪:這個聲明只有一個元素,但是顯然我們想存儲的字符串償付肯定大于一個字符的長度.這里其實使用的是結構體的一個『黑』方法:在聲明數組時只定義一個元素,但是實際創建 zend_string 時再分配足夠的內存來存儲整個字符串.這樣我們還是可以通過 val 拜訪完整的字符串.PHP編程
當然這屬于非常規的實現手段,因為我們實際的讀和寫的內容都超過了單字符數組的邊界.但是 C 語言編譯器卻不知道你是這么做的.雖然 C99 也曾明確規定過支持『柔性數組』,但是感謝我們的好朋友微軟,沒人能在不同的平臺上保證 C99 的一致性(所以這種手段是為了辦理 Windows 平臺下柔性數組的支持問題).PHP編程
新的字符串類型的結構比原生的 C 字符串更方便使用:第一是因為直接存儲了字符串的長度,這樣就不用每次使用時都去計算.第二是字符串也有引用計數的頭,這樣也就可以在不同的地方共享字符串自己而無需使用 zval.一個經常使用的地方就是共享 hashtable 的 key.PHP編程
但是新的字符串類型也有一個很不好的地方:雖然可以很方便的從 zend_string 中取出 C 字符串(使用 str->val 即可),但反過來,如果將 C 字符串變成 zend_string 就必要先分配 zend_string 必要的內存,再將字符串復制到 zend_string 中.這在實際使用的過程中并不是很方便.PHP編程
字符串也有一些特有的標記(存儲在 GC 的標記位中的):PHP編程
#define IS_STR_PERSISTENT (1<<0) /* allocated using malloc */ #define IS_STR_INTERNED (1<<1) /* interned string */ #define IS_STR_PERMANENT (1<<2) /* interned string surviving request boundary */
持久化的字符串需要的內存直接從系統本身分配而不是 zend 內存管理器(ZMM),這樣它就可以一直存在而不是只在單次哀求中有效.給這種特殊的分配打上標記便于 zval 使用持久化字符串.在 PHP5 中并不是這樣處理的,是在使用前復制一份到 ZMM 中.PHP編程
保留字符(interned strings)有點特殊,它會一直存在直到哀求結束時才銷毀,所以也就無需進行引用計數.保留字符串也不可重復(duplicate),所以在創建新的保留字符時也會先檢查是否有同樣字符的已經存在.所有 PHP 源碼中不可變的字符串都是保留字符(包括字符串常量、變量名函數名等).持久化字符串也是哀求開始之前已經創建好的保留字符.但普通的保留字符在哀求結束后會銷毀,持久化字符串卻始終存在.PHP編程
如果使用了 opcache 的話保存字符會被存儲在共享內存(SHM)中這樣就可以在所有 PHP 進程質檢共享.這種情況下持久化字符串也就沒有存在的意義了,因為保存字符也是不會被銷毀的.PHP編程
數組PHP編程
因為 之前的文章 有講過新的數組實現,所以這里就不再詳細描述了.雖然最近有些變化導致之前的描述不是十分準確了,但是基本的概念還是一致的.PHP編程
這里要說的是之前的文章中沒有提到的數組相關的概念:不可變數組.其本質上和保留字符類似:沒有引用計數且在哀求結束之前一直存在(也可能在哀求結束之后還存在).PHP編程
因為某些內存管理便利的原因,不可變數組只會在開啟 opcache 時會使用到.我們來看看實際使用的例子,先看以下的腳本:PHP編程
<?php for ($i = 0; $i < 1000000; ++$i) { $array[] = ['foo']; } var_dump(memory_get_usage());
開啟 opcache 時,以上代碼會使用 32MB 的內存,不開啟的情況下因為 $array 每個元素都會復制一份 ['foo'] ,所以必要 390MB.這里會進行完整的復制而不是增加引用計數值的原因是防止 zend 虛擬機操作符執行的時候出現共享內存出錯的情況.我希望不使用 opcache 時內存暴增的問題以后能得到改善.PHP編程
PHP5 中的對象PHP編程
在了解 PHP7 中的對象實現直線我們先看一下 PHP5 的而且看一下有什么效率上的問題.PHP5 中的 zval 會存儲一個 zend_object_value 結構,其定義如下:PHP編程
typedef struct _zend_object_value { zend_object_handle handle; const zend_object_handlers *handlers; } zend_object_value;
handle 是對象的唯一 ID,可以用于查找對象數據. handles 是保存對象各種屬性辦法的虛函數表指針.通常情況下 PHP 對象都有著同樣的 handler 表,但是 PHP 擴展創建的對象也可以通過操作符重載等方式對其行為自定義.PHP編程
對象句柄(handler)是作為索引用于『對象存儲』,對象存儲自己是一個存儲容器(bucket)的數組,bucket 定義如下:PHP編程
typedef struct _zend_object_store_bucket { zend_bool destructor_called; zend_bool valid; zend_uchar apply_count; union _store_bucket { struct _store_object { void *object; zend_objects_store_dtor_t dtor; zend_objects_free_object_storage_t free_storage; zend_objects_store_clone_t clone; const zend_object_handlers *handlers; zend_uint refcount; gc_root_buffer *buffered; } obj; struct { int next; } free_list; } bucket; } zend_object_store_bucket;
這個結構體包括了很多東西.前三個成員只是些普通的元數據(對象的析構函數是否被調用過、bucke 是否被使用過以及對象被遞歸調用過多少次).接下來的聯合體用于區分 bucket 是處于使用中的狀態還是空閑狀態.上面的結構中最重要的是 struct _store_object 子結構體:PHP編程
第一個成員 object 是指向實際對象(也就是對象最終存儲的位置)的指針.對象實際并不是直接嵌入到對象存儲的 bucket 中的,因為對象不是定長的.對象指針下面是三個用于管理對象銷毀、釋放與克隆的操作句柄(handler).這里要注意的是 PHP 銷毀和釋放對象是不同的步驟,前者在某些情況下有可能會被跳過(不完全釋放).克隆操作實際上幾乎幾乎不會被用到,因為這里包括的操作不是普通對象本身的一部分,所以(任何時候)他們在每個對象中他們都會被單獨復制(duplicate)一份而不是共享.PHP編程
這些對象存儲操作句柄后面是一個普通的對象 handlers 指針.存儲這幾個數據是因為有時候可能會在 zval 未知的情況下銷毀對象(通常情況下這些操作都是針對 zval 進行的).PHP編程
bucket 也包括了 refcount 的字段,不過這種行為在 PHP5 中顯得有些奇怪,因為 zval 本身已經存儲了引用計數.為什么還需要一個多余的計數呢?問題在于雖然通常情況下 zval 的『復制』行為都是簡單的增加引用計數即可,但是偶爾也會有深度復制的情況出現,比如創建一個全新的 zval 但是保存同樣的 zend_object_value .這種情況下兩個不同的 zval 就用到了同一個對象存儲的 bucket,所以 bucket 自身也需要進行引用計數.這種『雙重計數』的方式是 PHP5 的實現內在的問題.GC 根緩沖區中的 buffered 指針也是由于同樣的原因才需要進行完全復制(duplicate).PHP編程
現在看看對象存儲中指針指向的實際的 object 的布局,通常情況下用戶層面的對象定義如下:PHP編程
typedef struct _zend_object { zend_class_entry *ce; HashTable *properties; zval **properties_table; HashTable *guards; } zend_object;
zend_class_entry 指針指向的是對象實現的類原型.接下來的兩個元素是使用不同的方式存儲對象屬性.動態屬性(運行時添加的而不是在類中定義的)全部存在 properties 中,不外只是屬性名和值的簡單匹配.PHP編程
不過這里有針對已經聲明的屬性的一個優化:編譯期間每個屬性都會被指定一個索引并且屬性自己是存儲在 properties_table 的索引中.屬性名稱和索引的匹配存儲在類原型的 hashtable 中.這樣就可以防止每個對象使用的內存超過 hashtable 的上限,并且屬性的索引會在運行時有多處緩存.PHP編程
guards 的哈希表是用于實現魔術辦法的遞歸行為的,比如 __get ,這里我們不深入討論.PHP編程
除了上文提到過的雙重計數的問題,這種實現還有一個問題是一個最小的只有一個屬性的對象也需要 136 個字節的內存(這還不算 zval 需要的內存).而且中間存在很多間接拜訪動作:比如要從對象 zval 中取出一個元素,先需要取出對象存儲 bucket,然后是 zend object ,然后才能通過指針找到對象屬性表和 zval.這樣這里至少就有 4 層間接拜訪(并且實際使用中可能最少需要七層).PHP編程
PHP7 中的對象PHP編程
PHP7 的實現中試圖解決上面這些問題,包括去掉雙重引用計數、減少內存使用以及間接拜訪.新的 zend_object 結構體如下:PHP編程
struct _zend_object { zend_refcounted gc; uint32_t handle; zend_class_entry *ce; const zend_object_handlers *handlers; HashTable *properties; zval properties_table[1]; };
可以看到現在這個結構體幾乎便是一個對象的全部內容了: zend_object_value 已經被替換成一個直接指向對象和對象存儲的指針,雖然沒有完全移除,但已經是很大的提升了.PHP編程
除了 PHP7 中慣用的 zend_refcounted 頭以外, handle 和 對象的 handlers 現在也被放到了 zend_object 中.這里的 properties_table 同樣用到了 C 布局體的小技巧,這樣 zend_object 和屬性表就會得到一整塊內存.當然,現在屬性表是直接嵌入到 zval 中的而不是指針.PHP編程
現在對象結構體中沒有了 guards 表,現在如果需要的話這個字段的值會被存儲在 properties_table 的第一位中,也就是使用 __get 等辦法的時候.不過如果沒有使用魔術辦法的話,guards 表會被省略.PHP編程
dtor 、 free_storage 和?? clone 三個操作句柄之前是存儲在對象操作 bucket 中,現在直接存在 handlers 表中,其布局體定義如下:PHP編程
struct _zend_object_handlers { /* offset of real object header (usually zero) */ int offset; /* general object functions */ zend_object_free_obj_t free_obj; zend_object_dtor_obj_t dtor_obj; zend_object_clone_obj_t clone_obj; /* individual object functions */ // ... rest is about the same in PHP 5 };
handler 表的第一個成員是 offset ,很顯然這不是一個操作句柄.這個 offset 是現在的實現中必須存在的,因為雖然內部的對象總是嵌入到標準的 zend_object 中,但是也總會有添加一些成員進去的需求.在 PHP5 中解決這個問題的辦法是添加一些內容到標準的對象后面:PHP編程
struct custom_object { zend_object std; uint32_t something; // ... };
這樣如果你可以輕易的將 zend_object* 添加到 struct custom_object* 中.這也是 C 語言中常用的結構體繼承的做法.但是在 PHP7 中這種實現會有一個問題:因為 zend_object 在存儲屬性表時用了結構體 hack 的技巧, zend_object 尾部存儲的 PHP 屬性會覆蓋掉后續添加進去的內部成員.所以 PHP7 的實現中會把本身添加的成員添加到標準對象結構的前面:PHP編程
struct custom_object { uint32_t something; // ... zend_object std; };
不過這樣也就意味著現在無法直接在 zend_object* 和 struct custom_object* 進行簡單的轉換了,因為兩者都一個偏移分割開了.所以這個偏移量就必要被存儲在對象 handler 表中的第一個元素中,這樣在編譯時通過 offsetof() 宏就能確定具體的偏移值.PHP編程
也許你會好奇既然現在已經直接(在 zend_value 中)存儲了 zend_object 的指針,那現在就不需要再到對象存儲中去查找對象了,為什么 PHP7 的對象者還保存著 handle 字段呢?PHP編程
這是因為現在對象存儲仍然存在,雖然得到了極大的簡化,所以保留 handle 仍然是有必要的.現在它只是一個指向對象的指針數組.當對象被創建時,會有一個指針插入到對象存儲中并且其索引會保留在 handle 中,當對象被釋放時,索引也會被移除.PHP編程
那么為什么現在還需要對象存儲呢?因為在哀求結束的階段會在存在某個節點,在這之后再去執行用戶代碼并且取指針數據時就不安全了.為了避免這種情況出現 PHP 會在更早的節點上執行所有對象的析構函數并且之后就不再有此類操作,所以就需要一個活躍對象的列表.PHP編程
而且 handle 對于調試也是很有用的,它讓每個對象都有了一個唯一的 ID,這樣就很容易區分兩個對象是同一個還是只是有相同的內容.雖然 HHVM 沒有對象存儲的概念,但它也存了對象的 handle.PHP編程
和 PHP5 相比,現在的實現中只有一個引用計數(zval 自身不計數),并且內存的使用量有了很大的縮減:40 個字節用于基礎對象,每個屬性需要 16 個字節,并且這還是算了 zval 之后的.間接拜訪的情況也有了顯著的改善,因為現在中間層的結構體要么被去掉了,要么就是直接嵌入的,所以現在讀取一個屬性只有一層拜訪而不再是四層.PHP編程
間接 zvalPHP編程
到現在我們已經基本提到過了所有正常的 zval 類型,但是也有一對特殊類型用于某些特定的情況的,其中之一便是 PHP7 新添加的 IS_INDIRECT .PHP編程
間接 zval 指的便是其真正的值是存儲在其他地方的.注意這個 IS_REFERENCE 類型是不同的,間接 zval 是直接指向另外一個 zval 而不是像 zend_reference 結構體一樣嵌入 zval.PHP編程
為了理解在什么時候會出現這種情況,我們來看一下 PHP 中變量的實現(實際上對象屬性的存儲也是一樣的情況).PHP編程
所有在編譯過程中已知的變量都會被指定一個索引并且其值會被存在編譯變量(CV)表的相應位置中.但是 PHP 也允許你動態的引用變量,不管是局部變量還是全局變量(比如 $GLOBALS ),只要出現這種情況,PHP 就會為腳本或者函數創建一個符號表,這其中包括了變量名和它們的值之間的映射關系.PHP編程
但是問題在于:怎么樣才能實現兩個表的同時拜訪呢?我們需要在 CV 表中能夠拜訪普通變量,也需要能在符號表中拜訪編譯變量.在 PHP5 中 CV 表用了雙重指針 zval** ,通常這些指針指向中間的 zval* 的表, zval* 最終指向的才是實際的 zval:PHP編程
+------ CV_ptr_ptr[0] | +---- CV_ptr_ptr[1] | | +-- CV_ptr_ptr[2] | | | | | +-> CV_ptr[0] --> some zval | +---> CV_ptr[1] --> some zval +-----> CV_ptr[2] --> some zval
當必要使用符號表時存儲 zval* 的中間表其實是沒有用到的而 zval** 指針會被更新到 hashtable buckets 的響應位置中.我們假定有 $a 、 $b 和 $c 三個變量,下面是簡單的示意圖:PHP編程
CV_ptr_ptr[0] --> SymbolTable["a"].pDataPtr --> some zval CV_ptr_ptr[1] --> SymbolTable["b"].pDataPtr --> some zval CV_ptr_ptr[2] --> SymbolTable["c"].pDataPtr --> some zval
但是 PHP7 的用法中已經沒有這個問題了,因為 PHP7 中的 hashtable 大小發生變化時 hashtable bucket 就失效了.所以 PHP7 用了一個相反的策略:為了拜訪 CV 表中存儲的變量,符號表中存儲 INDIRECT 來指向 CV 表.CV 表在符號表的生命周期內不會重新分配,所以也就不會存在有無效指針的問題了.PHP編程
所以加入你有一個函數并且在 CV 表中有 $a 、 $b 和 $c ,同時還有一個動態分配的變量 $d ,符號表的結構看起來大概便是這個樣子:PHP編程
SymbolTable["a"].value = INDIRECT --> CV[0] = LONG 42 SymbolTable["b"].value = INDIRECT --> CV[1] = DOUBLE 42.0 SymbolTable["c"].value = INDIRECT --> CV[2] = STRING --> zend_string("42") SymbolTable["d"].value = ARRAY --> zend_array([4, 2])
間接 zval 也可以是一個指向 IS_UNDEF 類型 zval 的指針,當 hashtable 沒有和它關聯的 key 時就會出現這種情況.所以當使用 unset($a) 將 CV[0] 的類型標志為 UNDEF 時就會判定符號表不存在鍵值為 a 的數據.PHP編程
常量和 ASTPHP編程
還有兩個必要說一下的在 PHP5 和 PHP7 中都存在的特殊類型 IS_CONSTANT 和 IS_CONSTANT_AST .要了解他們我們還是先看以下的例子:PHP編程
<?php function test($a = ANSWER, $b = ANSWER * ANSWER) { return $a + $b; } define('ANSWER', 42); var_dump(test()); // int(42 + 42 * 42)?
test() 函數的兩個參數的默認值都是由常量 ANSWER 構成,但是函數聲明時常量的值尚未定義.常量的具體值只有通過 define() 定義時才知道.PHP編程
由于以上問題的存在,參數和屬性的默認值、常量以及其他接受『靜態表達式』的東西都支持『延時綁定』直到首次使用時.PHP編程
常量(或者類的靜態屬性)這些必要『延時綁定』的數據就是最常必要用到 IS_CONSTANT 類型 zval 的地方.如果這個值是表達式,就會使用 IS_CONSTANT_AST 類型的 zval 指向表達式的抽象語法樹(AST).PHP編程
到這里我們就結束了對 PHP7 中變量實現的分析.后面我可能還會寫兩篇文章來介紹一些虛擬機優化、新的命名約定以及一些編譯器基礎布局的優化的內容(這是作者原話).PHP編程
《PHP學習:變量在 PHP7 內部的實現(二)》是否對您有啟發,歡迎查看更多與《PHP學習:變量在 PHP7 內部的實現(二)》相關教程,學精學透。維易PHP學院為您提供精彩教程。