Merge commit 'v3.0' into android-3.0
[firefly-linux-kernel-4.4.55.git] / mm / page_alloc.c
1 /*
2  *  linux/mm/page_alloc.c
3  *
4  *  Manages the free list, the system allocates free pages here.
5  *  Note that kmalloc() lives in slab.c
6  *
7  *  Copyright (C) 1991, 1992, 1993, 1994  Linus Torvalds
8  *  Swap reorganised 29.12.95, Stephen Tweedie
9  *  Support of BIGMEM added by Gerhard Wichert, Siemens AG, July 1999
10  *  Reshaped it to be a zoned allocator, Ingo Molnar, Red Hat, 1999
11  *  Discontiguous memory support, Kanoj Sarcar, SGI, Nov 1999
12  *  Zone balancing, Kanoj Sarcar, SGI, Jan 2000
13  *  Per cpu hot/cold page lists, bulk allocation, Martin J. Bligh, Sept 2002
14  *          (lots of bits borrowed from Ingo Molnar & Andrew Morton)
15  */
16
17 #include <linux/stddef.h>
18 #include <linux/mm.h>
19 #include <linux/swap.h>
20 #include <linux/interrupt.h>
21 #include <linux/pagemap.h>
22 #include <linux/jiffies.h>
23 #include <linux/bootmem.h>
24 #include <linux/memblock.h>
25 #include <linux/compiler.h>
26 #include <linux/kernel.h>
27 #include <linux/kmemcheck.h>
28 #include <linux/module.h>
29 #include <linux/suspend.h>
30 #include <linux/pagevec.h>
31 #include <linux/blkdev.h>
32 #include <linux/slab.h>
33 #include <linux/ratelimit.h>
34 #include <linux/oom.h>
35 #include <linux/notifier.h>
36 #include <linux/topology.h>
37 #include <linux/sysctl.h>
38 #include <linux/cpu.h>
39 #include <linux/cpuset.h>
40 #include <linux/memory_hotplug.h>
41 #include <linux/nodemask.h>
42 #include <linux/vmalloc.h>
43 #include <linux/vmstat.h>
44 #include <linux/mempolicy.h>
45 #include <linux/stop_machine.h>
46 #include <linux/sort.h>
47 #include <linux/pfn.h>
48 #include <linux/backing-dev.h>
49 #include <linux/fault-inject.h>
50 #include <linux/page-isolation.h>
51 #include <linux/page_cgroup.h>
52 #include <linux/debugobjects.h>
53 #include <linux/kmemleak.h>
54 #include <linux/memory.h>
55 #include <linux/compaction.h>
56 #include <trace/events/kmem.h>
57 #include <linux/ftrace_event.h>
58 #include <linux/memcontrol.h>
59 #include <linux/prefetch.h>
60
61 #include <asm/tlbflush.h>
62 #include <asm/div64.h>
63 #include "internal.h"
64
65 #ifdef CONFIG_USE_PERCPU_NUMA_NODE_ID
66 DEFINE_PER_CPU(int, numa_node);
67 EXPORT_PER_CPU_SYMBOL(numa_node);
68 #endif
69
70 #ifdef CONFIG_HAVE_MEMORYLESS_NODES
71 /*
72  * N.B., Do NOT reference the '_numa_mem_' per cpu variable directly.
73  * It will not be defined when CONFIG_HAVE_MEMORYLESS_NODES is not defined.
74  * Use the accessor functions set_numa_mem(), numa_mem_id() and cpu_to_mem()
75  * defined in <linux/topology.h>.
76  */
77 DEFINE_PER_CPU(int, _numa_mem_);                /* Kernel "local memory" node */
78 EXPORT_PER_CPU_SYMBOL(_numa_mem_);
79 #endif
80
81 /*
82  * Array of node states.
83  */
84 nodemask_t node_states[NR_NODE_STATES] __read_mostly = {
85         [N_POSSIBLE] = NODE_MASK_ALL,
86         [N_ONLINE] = { { [0] = 1UL } },
87 #ifndef CONFIG_NUMA
88         [N_NORMAL_MEMORY] = { { [0] = 1UL } },
89 #ifdef CONFIG_HIGHMEM
90         [N_HIGH_MEMORY] = { { [0] = 1UL } },
91 #endif
92         [N_CPU] = { { [0] = 1UL } },
93 #endif  /* NUMA */
94 };
95 EXPORT_SYMBOL(node_states);
96
97 unsigned long totalram_pages __read_mostly;
98 unsigned long totalreserve_pages __read_mostly;
99 int percpu_pagelist_fraction;
100 gfp_t gfp_allowed_mask __read_mostly = GFP_BOOT_MASK;
101
102 #ifdef CONFIG_PM_SLEEP
103 /*
104  * The following functions are used by the suspend/hibernate code to temporarily
105  * change gfp_allowed_mask in order to avoid using I/O during memory allocations
106  * while devices are suspended.  To avoid races with the suspend/hibernate code,
107  * they should always be called with pm_mutex held (gfp_allowed_mask also should
108  * only be modified with pm_mutex held, unless the suspend/hibernate code is
109  * guaranteed not to run in parallel with that modification).
110  */
111
112 static gfp_t saved_gfp_mask;
113
114 void pm_restore_gfp_mask(void)
115 {
116         WARN_ON(!mutex_is_locked(&pm_mutex));
117         if (saved_gfp_mask) {
118                 gfp_allowed_mask = saved_gfp_mask;
119                 saved_gfp_mask = 0;
120         }
121 }
122
123 void pm_restrict_gfp_mask(void)
124 {
125         WARN_ON(!mutex_is_locked(&pm_mutex));
126         WARN_ON(saved_gfp_mask);
127         saved_gfp_mask = gfp_allowed_mask;
128         gfp_allowed_mask &= ~GFP_IOFS;
129 }
130 #endif /* CONFIG_PM_SLEEP */
131
132 #ifdef CONFIG_HUGETLB_PAGE_SIZE_VARIABLE
133 int pageblock_order __read_mostly;
134 #endif
135
136 static void __free_pages_ok(struct page *page, unsigned int order);
137
138 /*
139  * results with 256, 32 in the lowmem_reserve sysctl:
140  *      1G machine -> (16M dma, 800M-16M normal, 1G-800M high)
141  *      1G machine -> (16M dma, 784M normal, 224M high)
142  *      NORMAL allocation will leave 784M/256 of ram reserved in the ZONE_DMA
143  *      HIGHMEM allocation will leave 224M/32 of ram reserved in ZONE_NORMAL
144  *      HIGHMEM allocation will (224M+784M)/256 of ram reserved in ZONE_DMA
145  *
146  * TBD: should special case ZONE_DMA32 machines here - in those we normally
147  * don't need any ZONE_NORMAL reservation
148  */
149 int sysctl_lowmem_reserve_ratio[MAX_NR_ZONES-1] = {
150 #ifdef CONFIG_ZONE_DMA
151          256,
152 #endif
153 #ifdef CONFIG_ZONE_DMA32
154          256,
155 #endif
156 #ifdef CONFIG_HIGHMEM
157          32,
158 #endif
159          32,
160 };
161
162 EXPORT_SYMBOL(totalram_pages);
163
164 static char * const zone_names[MAX_NR_ZONES] = {
165 #ifdef CONFIG_ZONE_DMA
166          "DMA",
167 #endif
168 #ifdef CONFIG_ZONE_DMA32
169          "DMA32",
170 #endif
171          "Normal",
172 #ifdef CONFIG_HIGHMEM
173          "HighMem",
174 #endif
175          "Movable",
176 };
177
178 int min_free_kbytes = 1024;
179 int min_free_order_shift = 1;
180
181 static unsigned long __meminitdata nr_kernel_pages;
182 static unsigned long __meminitdata nr_all_pages;
183 static unsigned long __meminitdata dma_reserve;
184
185 #ifdef CONFIG_ARCH_POPULATES_NODE_MAP
186   /*
187    * MAX_ACTIVE_REGIONS determines the maximum number of distinct
188    * ranges of memory (RAM) that may be registered with add_active_range().
189    * Ranges passed to add_active_range() will be merged if possible
190    * so the number of times add_active_range() can be called is
191    * related to the number of nodes and the number of holes
192    */
193   #ifdef CONFIG_MAX_ACTIVE_REGIONS
194     /* Allow an architecture to set MAX_ACTIVE_REGIONS to save memory */
195     #define MAX_ACTIVE_REGIONS CONFIG_MAX_ACTIVE_REGIONS
196   #else
197     #if MAX_NUMNODES >= 32
198       /* If there can be many nodes, allow up to 50 holes per node */
199       #define MAX_ACTIVE_REGIONS (MAX_NUMNODES*50)
200     #else
201       /* By default, allow up to 256 distinct regions */
202       #define MAX_ACTIVE_REGIONS 256
203     #endif
204   #endif
205
206   static struct node_active_region __meminitdata early_node_map[MAX_ACTIVE_REGIONS];
207   static int __meminitdata nr_nodemap_entries;
208   static unsigned long __meminitdata arch_zone_lowest_possible_pfn[MAX_NR_ZONES];
209   static unsigned long __meminitdata arch_zone_highest_possible_pfn[MAX_NR_ZONES];
210   static unsigned long __initdata required_kernelcore;
211   static unsigned long __initdata required_movablecore;
212   static unsigned long __meminitdata zone_movable_pfn[MAX_NUMNODES];
213
214   /* movable_zone is the "real" zone pages in ZONE_MOVABLE are taken from */
215   int movable_zone;
216   EXPORT_SYMBOL(movable_zone);
217 #endif /* CONFIG_ARCH_POPULATES_NODE_MAP */
218
219 #if MAX_NUMNODES > 1
220 int nr_node_ids __read_mostly = MAX_NUMNODES;
221 int nr_online_nodes __read_mostly = 1;
222 EXPORT_SYMBOL(nr_node_ids);
223 EXPORT_SYMBOL(nr_online_nodes);
224 #endif
225
226 int page_group_by_mobility_disabled __read_mostly;
227
228 static void set_pageblock_migratetype(struct page *page, int migratetype)
229 {
230
231         if (unlikely(page_group_by_mobility_disabled))
232                 migratetype = MIGRATE_UNMOVABLE;
233
234         set_pageblock_flags_group(page, (unsigned long)migratetype,
235                                         PB_migrate, PB_migrate_end);
236 }
237
238 bool oom_killer_disabled __read_mostly;
239
240 #ifdef CONFIG_DEBUG_VM
241 static int page_outside_zone_boundaries(struct zone *zone, struct page *page)
242 {
243         int ret = 0;
244         unsigned seq;
245         unsigned long pfn = page_to_pfn(page);
246
247         do {
248                 seq = zone_span_seqbegin(zone);
249                 if (pfn >= zone->zone_start_pfn + zone->spanned_pages)
250                         ret = 1;
251                 else if (pfn < zone->zone_start_pfn)
252                         ret = 1;
253         } while (zone_span_seqretry(zone, seq));
254
255         return ret;
256 }
257
258 static int page_is_consistent(struct zone *zone, struct page *page)
259 {
260         if (!pfn_valid_within(page_to_pfn(page)))
261                 return 0;
262         if (zone != page_zone(page))
263                 return 0;
264
265         return 1;
266 }
267 /*
268  * Temporary debugging check for pages not lying within a given zone.
269  */
270 static int bad_range(struct zone *zone, struct page *page)
271 {
272         if (page_outside_zone_boundaries(zone, page))
273                 return 1;
274         if (!page_is_consistent(zone, page))
275                 return 1;
276
277         return 0;
278 }
279 #else
280 static inline int bad_range(struct zone *zone, struct page *page)
281 {
282         return 0;
283 }
284 #endif
285
286 static void bad_page(struct page *page)
287 {
288         static unsigned long resume;
289         static unsigned long nr_shown;
290         static unsigned long nr_unshown;
291
292         /* Don't complain about poisoned pages */
293         if (PageHWPoison(page)) {
294                 reset_page_mapcount(page); /* remove PageBuddy */
295                 return;
296         }
297
298         /*
299          * Allow a burst of 60 reports, then keep quiet for that minute;
300          * or allow a steady drip of one report per second.
301          */
302         if (nr_shown == 60) {
303                 if (time_before(jiffies, resume)) {
304                         nr_unshown++;
305                         goto out;
306                 }
307                 if (nr_unshown) {
308                         printk(KERN_ALERT
309                               "BUG: Bad page state: %lu messages suppressed\n",
310                                 nr_unshown);
311                         nr_unshown = 0;
312                 }
313                 nr_shown = 0;
314         }
315         if (nr_shown++ == 0)
316                 resume = jiffies + 60 * HZ;
317
318         printk(KERN_ALERT "BUG: Bad page state in process %s  pfn:%05lx\n",
319                 current->comm, page_to_pfn(page));
320         dump_page(page);
321
322         dump_stack();
323 out:
324         /* Leave bad fields for debug, except PageBuddy could make trouble */
325         reset_page_mapcount(page); /* remove PageBuddy */
326         add_taint(TAINT_BAD_PAGE);
327 }
328
329 /*
330  * Higher-order pages are called "compound pages".  They are structured thusly:
331  *
332  * The first PAGE_SIZE page is called the "head page".
333  *
334  * The remaining PAGE_SIZE pages are called "tail pages".
335  *
336  * All pages have PG_compound set.  All pages have their ->private pointing at
337  * the head page (even the head page has this).
338  *
339  * The first tail page's ->lru.next holds the address of the compound page's
340  * put_page() function.  Its ->lru.prev holds the order of allocation.
341  * This usage means that zero-order pages may not be compound.
342  */
343
344 static void free_compound_page(struct page *page)
345 {
346         __free_pages_ok(page, compound_order(page));
347 }
348
349 void prep_compound_page(struct page *page, unsigned long order)
350 {
351         int i;
352         int nr_pages = 1 << order;
353
354         set_compound_page_dtor(page, free_compound_page);
355         set_compound_order(page, order);
356         __SetPageHead(page);
357         for (i = 1; i < nr_pages; i++) {
358                 struct page *p = page + i;
359
360                 __SetPageTail(p);
361                 p->first_page = page;
362         }
363 }
364
365 /* update __split_huge_page_refcount if you change this function */
366 static int destroy_compound_page(struct page *page, unsigned long order)
367 {
368         int i;
369         int nr_pages = 1 << order;
370         int bad = 0;
371
372         if (unlikely(compound_order(page) != order) ||
373             unlikely(!PageHead(page))) {
374                 bad_page(page);
375                 bad++;
376         }
377
378         __ClearPageHead(page);
379
380         for (i = 1; i < nr_pages; i++) {
381                 struct page *p = page + i;
382
383                 if (unlikely(!PageTail(p) || (p->first_page != page))) {
384                         bad_page(page);
385                         bad++;
386                 }
387                 __ClearPageTail(p);
388         }
389
390         return bad;
391 }
392
393 static inline void prep_zero_page(struct page *page, int order, gfp_t gfp_flags)
394 {
395         int i;
396
397         /*
398          * clear_highpage() will use KM_USER0, so it's a bug to use __GFP_ZERO
399          * and __GFP_HIGHMEM from hard or soft interrupt context.
400          */
401         VM_BUG_ON((gfp_flags & __GFP_HIGHMEM) && in_interrupt());
402         for (i = 0; i < (1 << order); i++)
403                 clear_highpage(page + i);
404 }
405
406 static inline void set_page_order(struct page *page, int order)
407 {
408         set_page_private(page, order);
409         __SetPageBuddy(page);
410 }
411
412 static inline void rmv_page_order(struct page *page)
413 {
414         __ClearPageBuddy(page);
415         set_page_private(page, 0);
416 }
417
418 /*
419  * Locate the struct page for both the matching buddy in our
420  * pair (buddy1) and the combined O(n+1) page they form (page).
421  *
422  * 1) Any buddy B1 will have an order O twin B2 which satisfies
423  * the following equation:
424  *     B2 = B1 ^ (1 << O)
425  * For example, if the starting buddy (buddy2) is #8 its order
426  * 1 buddy is #10:
427  *     B2 = 8 ^ (1 << 1) = 8 ^ 2 = 10
428  *
429  * 2) Any buddy B will have an order O+1 parent P which
430  * satisfies the following equation:
431  *     P = B & ~(1 << O)
432  *
433  * Assumption: *_mem_map is contiguous at least up to MAX_ORDER
434  */
435 static inline unsigned long
436 __find_buddy_index(unsigned long page_idx, unsigned int order)
437 {
438         return page_idx ^ (1 << order);
439 }
440
441 /*
442  * This function checks whether a page is free && is the buddy
443  * we can do coalesce a page and its buddy if
444  * (a) the buddy is not in a hole &&
445  * (b) the buddy is in the buddy system &&
446  * (c) a page and its buddy have the same order &&
447  * (d) a page and its buddy are in the same zone.
448  *
449  * For recording whether a page is in the buddy system, we set ->_mapcount -2.
450  * Setting, clearing, and testing _mapcount -2 is serialized by zone->lock.
451  *
452  * For recording page's order, we use page_private(page).
453  */
454 static inline int page_is_buddy(struct page *page, struct page *buddy,
455                                                                 int order)
456 {
457         if (!pfn_valid_within(page_to_pfn(buddy)))
458                 return 0;
459
460         if (page_zone_id(page) != page_zone_id(buddy))
461                 return 0;
462
463         if (PageBuddy(buddy) && page_order(buddy) == order) {
464                 VM_BUG_ON(page_count(buddy) != 0);
465                 return 1;
466         }
467         return 0;
468 }
469
470 /*
471  * Freeing function for a buddy system allocator.
472  *
473  * The concept of a buddy system is to maintain direct-mapped table
474  * (containing bit values) for memory blocks of various "orders".
475  * The bottom level table contains the map for the smallest allocatable
476  * units of memory (here, pages), and each level above it describes
477  * pairs of units from the levels below, hence, "buddies".
478  * At a high level, all that happens here is marking the table entry
479  * at the bottom level available, and propagating the changes upward
480  * as necessary, plus some accounting needed to play nicely with other
481  * parts of the VM system.
482  * At each level, we keep a list of pages, which are heads of continuous
483  * free pages of length of (1 << order) and marked with _mapcount -2. Page's
484  * order is recorded in page_private(page) field.
485  * So when we are allocating or freeing one, we can derive the state of the
486  * other.  That is, if we allocate a small block, and both were   
487  * free, the remainder of the region must be split into blocks.   
488  * If a block is freed, and its buddy is also free, then this
489  * triggers coalescing into a block of larger size.            
490  *
491  * -- wli
492  */
493
494 static inline void __free_one_page(struct page *page,
495                 struct zone *zone, unsigned int order,
496                 int migratetype)
497 {
498         unsigned long page_idx;
499         unsigned long combined_idx;
500         unsigned long uninitialized_var(buddy_idx);
501         struct page *buddy;
502
503         if (unlikely(PageCompound(page)))
504                 if (unlikely(destroy_compound_page(page, order)))
505                         return;
506
507         VM_BUG_ON(migratetype == -1);
508
509         page_idx = page_to_pfn(page) & ((1 << MAX_ORDER) - 1);
510
511         VM_BUG_ON(page_idx & ((1 << order) - 1));
512         VM_BUG_ON(bad_range(zone, page));
513
514         while (order < MAX_ORDER-1) {
515                 buddy_idx = __find_buddy_index(page_idx, order);
516                 buddy = page + (buddy_idx - page_idx);
517                 if (!page_is_buddy(page, buddy, order))
518                         break;
519
520                 /* Our buddy is free, merge with it and move up one order. */
521                 list_del(&buddy->lru);
522                 zone->free_area[order].nr_free--;
523                 rmv_page_order(buddy);
524                 combined_idx = buddy_idx & page_idx;
525                 page = page + (combined_idx - page_idx);
526                 page_idx = combined_idx;
527                 order++;
528         }
529         set_page_order(page, order);
530
531         /*
532          * If this is not the largest possible page, check if the buddy
533          * of the next-highest order is free. If it is, it's possible
534          * that pages are being freed that will coalesce soon. In case,
535          * that is happening, add the free page to the tail of the list
536          * so it's less likely to be used soon and more likely to be merged
537          * as a higher order page
538          */
539         if ((order < MAX_ORDER-2) && pfn_valid_within(page_to_pfn(buddy))) {
540                 struct page *higher_page, *higher_buddy;
541                 combined_idx = buddy_idx & page_idx;
542                 higher_page = page + (combined_idx - page_idx);
543                 buddy_idx = __find_buddy_index(combined_idx, order + 1);
544                 higher_buddy = page + (buddy_idx - combined_idx);
545                 if (page_is_buddy(higher_page, higher_buddy, order + 1)) {
546                         list_add_tail(&page->lru,
547                                 &zone->free_area[order].free_list[migratetype]);
548                         goto out;
549                 }
550         }
551
552         list_add(&page->lru, &zone->free_area[order].free_list[migratetype]);
553 out:
554         zone->free_area[order].nr_free++;
555 }
556
557 /*
558  * free_page_mlock() -- clean up attempts to free and mlocked() page.
559  * Page should not be on lru, so no need to fix that up.
560  * free_pages_check() will verify...
561  */
562 static inline void free_page_mlock(struct page *page)
563 {
564         __dec_zone_page_state(page, NR_MLOCK);
565         __count_vm_event(UNEVICTABLE_MLOCKFREED);
566 }
567
568 static inline int free_pages_check(struct page *page)
569 {
570         if (unlikely(page_mapcount(page) |
571                 (page->mapping != NULL)  |
572                 (atomic_read(&page->_count) != 0) |
573                 (page->flags & PAGE_FLAGS_CHECK_AT_FREE) |
574                 (mem_cgroup_bad_page_check(page)))) {
575                 bad_page(page);
576                 return 1;
577         }
578         if (page->flags & PAGE_FLAGS_CHECK_AT_PREP)
579                 page->flags &= ~PAGE_FLAGS_CHECK_AT_PREP;
580         return 0;
581 }
582
583 /*
584  * Frees a number of pages from the PCP lists
585  * Assumes all pages on list are in same zone, and of same order.
586  * count is the number of pages to free.
587  *
588  * If the zone was previously in an "all pages pinned" state then look to
589  * see if this freeing clears that state.
590  *
591  * And clear the zone's pages_scanned counter, to hold off the "all pages are
592  * pinned" detection logic.
593  */
594 static void free_pcppages_bulk(struct zone *zone, int count,
595                                         struct per_cpu_pages *pcp)
596 {
597         int migratetype = 0;
598         int batch_free = 0;
599         int to_free = count;
600
601         spin_lock(&zone->lock);
602         zone->all_unreclaimable = 0;
603         zone->pages_scanned = 0;
604
605         while (to_free) {
606                 struct page *page;
607                 struct list_head *list;
608
609                 /*
610                  * Remove pages from lists in a round-robin fashion. A
611                  * batch_free count is maintained that is incremented when an
612                  * empty list is encountered.  This is so more pages are freed
613                  * off fuller lists instead of spinning excessively around empty
614                  * lists
615                  */
616                 do {
617                         batch_free++;
618                         if (++migratetype == MIGRATE_PCPTYPES)
619                                 migratetype = 0;
620                         list = &pcp->lists[migratetype];
621                 } while (list_empty(list));
622
623                 /* This is the only non-empty list. Free them all. */
624                 if (batch_free == MIGRATE_PCPTYPES)
625                         batch_free = to_free;
626
627                 do {
628                         page = list_entry(list->prev, struct page, lru);
629                         /* must delete as __free_one_page list manipulates */
630                         list_del(&page->lru);
631                         /* MIGRATE_MOVABLE list may include MIGRATE_RESERVEs */
632                         __free_one_page(page, zone, 0, page_private(page));
633                         trace_mm_page_pcpu_drain(page, 0, page_private(page));
634                 } while (--to_free && --batch_free && !list_empty(list));
635         }
636         __mod_zone_page_state(zone, NR_FREE_PAGES, count);
637         spin_unlock(&zone->lock);
638 }
639
640 static void free_one_page(struct zone *zone, struct page *page, int order,
641                                 int migratetype)
642 {
643         spin_lock(&zone->lock);
644         zone->all_unreclaimable = 0;
645         zone->pages_scanned = 0;
646
647         __free_one_page(page, zone, order, migratetype);
648         __mod_zone_page_state(zone, NR_FREE_PAGES, 1 << order);
649         spin_unlock(&zone->lock);
650 }
651
652 static bool free_pages_prepare(struct page *page, unsigned int order)
653 {
654         int i;
655         int bad = 0;
656
657         trace_mm_page_free_direct(page, order);
658         kmemcheck_free_shadow(page, order);
659
660         if (PageAnon(page))
661                 page->mapping = NULL;
662         for (i = 0; i < (1 << order); i++)
663                 bad += free_pages_check(page + i);
664         if (bad)
665                 return false;
666
667         if (!PageHighMem(page)) {
668                 debug_check_no_locks_freed(page_address(page),PAGE_SIZE<<order);
669                 debug_check_no_obj_freed(page_address(page),
670                                            PAGE_SIZE << order);
671         }
672         arch_free_page(page, order);
673         kernel_map_pages(page, 1 << order, 0);
674
675         return true;
676 }
677
678 static void __free_pages_ok(struct page *page, unsigned int order)
679 {
680         unsigned long flags;
681         int wasMlocked = __TestClearPageMlocked(page);
682
683         if (!free_pages_prepare(page, order))
684                 return;
685
686         local_irq_save(flags);
687         if (unlikely(wasMlocked))
688                 free_page_mlock(page);
689         __count_vm_events(PGFREE, 1 << order);
690         free_one_page(page_zone(page), page, order,
691                                         get_pageblock_migratetype(page));
692         local_irq_restore(flags);
693 }
694
695 /*
696  * permit the bootmem allocator to evade page validation on high-order frees
697  */
698 void __meminit __free_pages_bootmem(struct page *page, unsigned int order)
699 {
700         if (order == 0) {
701                 __ClearPageReserved(page);
702                 set_page_count(page, 0);
703                 set_page_refcounted(page);
704                 __free_page(page);
705         } else {
706                 int loop;
707
708                 prefetchw(page);
709                 for (loop = 0; loop < BITS_PER_LONG; loop++) {
710                         struct page *p = &page[loop];
711
712                         if (loop + 1 < BITS_PER_LONG)
713                                 prefetchw(p + 1);
714                         __ClearPageReserved(p);
715                         set_page_count(p, 0);
716                 }
717
718                 set_page_refcounted(page);
719                 __free_pages(page, order);
720         }
721 }
722
723
724 /*
725  * The order of subdivision here is critical for the IO subsystem.
726  * Please do not alter this order without good reasons and regression
727  * testing. Specifically, as large blocks of memory are subdivided,
728  * the order in which smaller blocks are delivered depends on the order
729  * they're subdivided in this function. This is the primary factor
730  * influencing the order in which pages are delivered to the IO
731  * subsystem according to empirical testing, and this is also justified
732  * by considering the behavior of a buddy system containing a single
733  * large block of memory acted on by a series of small allocations.
734  * This behavior is a critical factor in sglist merging's success.
735  *
736  * -- wli
737  */
738 static inline void expand(struct zone *zone, struct page *page,
739         int low, int high, struct free_area *area,
740         int migratetype)
741 {
742         unsigned long size = 1 << high;
743
744         while (high > low) {
745                 area--;
746                 high--;
747                 size >>= 1;
748                 VM_BUG_ON(bad_range(zone, &page[size]));
749                 list_add(&page[size].lru, &area->free_list[migratetype]);
750                 area->nr_free++;
751                 set_page_order(&page[size], high);
752         }
753 }
754
755 /*
756  * This page is about to be returned from the page allocator
757  */
758 static inline int check_new_page(struct page *page)
759 {
760         if (unlikely(page_mapcount(page) |
761                 (page->mapping != NULL)  |
762                 (atomic_read(&page->_count) != 0)  |
763                 (page->flags & PAGE_FLAGS_CHECK_AT_PREP) |
764                 (mem_cgroup_bad_page_check(page)))) {
765                 bad_page(page);
766                 return 1;
767         }
768         return 0;
769 }
770
771 static int prep_new_page(struct page *page, int order, gfp_t gfp_flags)
772 {
773         int i;
774
775         for (i = 0; i < (1 << order); i++) {
776                 struct page *p = page + i;
777                 if (unlikely(check_new_page(p)))
778                         return 1;
779         }
780
781         set_page_private(page, 0);
782         set_page_refcounted(page);
783
784         arch_alloc_page(page, order);
785         kernel_map_pages(page, 1 << order, 1);
786
787         if (gfp_flags & __GFP_ZERO)
788                 prep_zero_page(page, order, gfp_flags);
789
790         if (order && (gfp_flags & __GFP_COMP))
791                 prep_compound_page(page, order);
792
793         return 0;
794 }
795
796 /*
797  * Go through the free lists for the given migratetype and remove
798  * the smallest available page from the freelists
799  */
800 static inline
801 struct page *__rmqueue_smallest(struct zone *zone, unsigned int order,
802                                                 int migratetype)
803 {
804         unsigned int current_order;
805         struct free_area * area;
806         struct page *page;
807
808         /* Find a page of the appropriate size in the preferred list */
809         for (current_order = order; current_order < MAX_ORDER; ++current_order) {
810                 area = &(zone->free_area[current_order]);
811                 if (list_empty(&area->free_list[migratetype]))
812                         continue;
813
814                 page = list_entry(area->free_list[migratetype].next,
815                                                         struct page, lru);
816                 list_del(&page->lru);
817                 rmv_page_order(page);
818                 area->nr_free--;
819                 expand(zone, page, order, current_order, area, migratetype);
820                 return page;
821         }
822
823         return NULL;
824 }
825
826
827 /*
828  * This array describes the order lists are fallen back to when
829  * the free lists for the desirable migrate type are depleted
830  */
831 static int fallbacks[MIGRATE_TYPES][MIGRATE_TYPES-1] = {
832         [MIGRATE_UNMOVABLE]   = { MIGRATE_RECLAIMABLE, MIGRATE_MOVABLE,   MIGRATE_RESERVE },
833         [MIGRATE_RECLAIMABLE] = { MIGRATE_UNMOVABLE,   MIGRATE_MOVABLE,   MIGRATE_RESERVE },
834         [MIGRATE_MOVABLE]     = { MIGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE, MIGRATE_RESERVE },
835         [MIGRATE_RESERVE]     = { MIGRATE_RESERVE,     MIGRATE_RESERVE,   MIGRATE_RESERVE }, /* Never used */
836 };
837
838 /*
839  * Move the free pages in a range to the free lists of the requested type.
840  * Note that start_page and end_pages are not aligned on a pageblock
841  * boundary. If alignment is required, use move_freepages_block()
842  */
843 static int move_freepages(struct zone *zone,
844                           struct page *start_page, struct page *end_page,
845                           int migratetype)
846 {
847         struct page *page;
848         unsigned long order;
849         int pages_moved = 0;
850
851 #ifndef CONFIG_HOLES_IN_ZONE
852         /*
853          * page_zone is not safe to call in this context when
854          * CONFIG_HOLES_IN_ZONE is set. This bug check is probably redundant
855          * anyway as we check zone boundaries in move_freepages_block().
856          * Remove at a later date when no bug reports exist related to
857          * grouping pages by mobility
858          */
859         BUG_ON(page_zone(start_page) != page_zone(end_page));
860 #endif
861
862         for (page = start_page; page <= end_page;) {
863                 /* Make sure we are not inadvertently changing nodes */
864                 VM_BUG_ON(page_to_nid(page) != zone_to_nid(zone));
865
866                 if (!pfn_valid_within(page_to_pfn(page))) {
867                         page++;
868                         continue;
869                 }
870
871                 if (!PageBuddy(page)) {
872                         page++;
873                         continue;
874                 }
875
876                 order = page_order(page);
877                 list_move(&page->lru,
878                           &zone->free_area[order].free_list[migratetype]);
879                 page += 1 << order;
880                 pages_moved += 1 << order;
881         }
882
883         return pages_moved;
884 }
885
886 static int move_freepages_block(struct zone *zone, struct page *page,
887                                 int migratetype)
888 {
889         unsigned long start_pfn, end_pfn;
890         struct page *start_page, *end_page;
891
892         start_pfn = page_to_pfn(page);
893         start_pfn = start_pfn & ~(pageblock_nr_pages-1);
894         start_page = pfn_to_page(start_pfn);
895         end_page = start_page + pageblock_nr_pages - 1;
896         end_pfn = start_pfn + pageblock_nr_pages - 1;
897
898         /* Do not cross zone boundaries */
899         if (start_pfn < zone->zone_start_pfn)
900                 start_page = page;
901         if (end_pfn >= zone->zone_start_pfn + zone->spanned_pages)
902                 return 0;
903
904         return move_freepages(zone, start_page, end_page, migratetype);
905 }
906
907 static void change_pageblock_range(struct page *pageblock_page,
908                                         int start_order, int migratetype)
909 {
910         int nr_pageblocks = 1 << (start_order - pageblock_order);
911
912         while (nr_pageblocks--) {
913                 set_pageblock_migratetype(pageblock_page, migratetype);
914                 pageblock_page += pageblock_nr_pages;
915         }
916 }
917
918 /* Remove an element from the buddy allocator from the fallback list */
919 static inline struct page *
920 __rmqueue_fallback(struct zone *zone, int order, int start_migratetype)
921 {
922         struct free_area * area;
923         int current_order;
924         struct page *page;
925         int migratetype, i;
926
927         /* Find the largest possible block of pages in the other list */
928         for (current_order = MAX_ORDER-1; current_order >= order;
929                                                 --current_order) {
930                 for (i = 0; i < MIGRATE_TYPES - 1; i++) {
931                         migratetype = fallbacks[start_migratetype][i];
932
933                         /* MIGRATE_RESERVE handled later if necessary */
934                         if (migratetype == MIGRATE_RESERVE)
935                                 continue;
936
937                         area = &(zone->free_area[current_order]);
938                         if (list_empty(&area->free_list[migratetype]))
939                                 continue;
940
941                         page = list_entry(area->free_list[migratetype].next,
942                                         struct page, lru);
943                         area->nr_free--;
944
945                         /*
946                          * If breaking a large block of pages, move all free
947                          * pages to the preferred allocation list. If falling
948                          * back for a reclaimable kernel allocation, be more
949                          * aggressive about taking ownership of free pages
950                          */
951                         if (unlikely(current_order >= (pageblock_order >> 1)) ||
952                                         start_migratetype == MIGRATE_RECLAIMABLE ||
953                                         page_group_by_mobility_disabled) {
954                                 unsigned long pages;
955                                 pages = move_freepages_block(zone, page,
956                                                                 start_migratetype);
957
958                                 /* Claim the whole block if over half of it is free */
959                                 if (pages >= (1 << (pageblock_order-1)) ||
960                                                 page_group_by_mobility_disabled)
961                                         set_pageblock_migratetype(page,
962                                                                 start_migratetype);
963
964                                 migratetype = start_migratetype;
965                         }
966
967                         /* Remove the page from the freelists */
968                         list_del(&page->lru);
969                         rmv_page_order(page);
970
971                         /* Take ownership for orders >= pageblock_order */
972                         if (current_order >= pageblock_order)
973                                 change_pageblock_range(page, current_order,
974                                                         start_migratetype);
975
976                         expand(zone, page, order, current_order, area, migratetype);
977
978                         trace_mm_page_alloc_extfrag(page, order, current_order,
979                                 start_migratetype, migratetype);
980
981                         return page;
982                 }
983         }
984
985         return NULL;
986 }
987
988 /*
989  * Do the hard work of removing an element from the buddy allocator.
990  * Call me with the zone->lock already held.
991  */
992 static struct page *__rmqueue(struct zone *zone, unsigned int order,
993                                                 int migratetype)
994 {
995         struct page *page;
996
997 retry_reserve:
998         page = __rmqueue_smallest(zone, order, migratetype);
999
1000         if (unlikely(!page) && migratetype != MIGRATE_RESERVE) {
1001                 page = __rmqueue_fallback(zone, order, migratetype);
1002
1003                 /*
1004                  * Use MIGRATE_RESERVE rather than fail an allocation. goto
1005                  * is used because __rmqueue_smallest is an inline function
1006                  * and we want just one call site
1007                  */
1008                 if (!page) {
1009                         migratetype = MIGRATE_RESERVE;
1010                         goto retry_reserve;
1011                 }
1012         }
1013
1014         trace_mm_page_alloc_zone_locked(page, order, migratetype);
1015         return page;
1016 }
1017
1018 /* 
1019  * Obtain a specified number of elements from the buddy allocator, all under
1020  * a single hold of the lock, for efficiency.  Add them to the supplied list.
1021  * Returns the number of new pages which were placed at *list.
1022  */
1023 static int rmqueue_bulk(struct zone *zone, unsigned int order, 
1024                         unsigned long count, struct list_head *list,
1025                         int migratetype, int cold)
1026 {
1027         int i;
1028         
1029         spin_lock(&zone->lock);
1030         for (i = 0; i < count; ++i) {
1031                 struct page *page = __rmqueue(zone, order, migratetype);
1032                 if (unlikely(page == NULL))
1033                         break;
1034
1035                 /*
1036                  * Split buddy pages returned by expand() are received here
1037                  * in physical page order. The page is added to the callers and
1038                  * list and the list head then moves forward. From the callers
1039                  * perspective, the linked list is ordered by page number in
1040                  * some conditions. This is useful for IO devices that can
1041                  * merge IO requests if the physical pages are ordered
1042                  * properly.
1043                  */
1044                 if (likely(cold == 0))
1045                         list_add(&page->lru, list);
1046                 else
1047                         list_add_tail(&page->lru, list);
1048                 set_page_private(page, migratetype);
1049                 list = &page->lru;
1050         }
1051         __mod_zone_page_state(zone, NR_FREE_PAGES, -(i << order));
1052         spin_unlock(&zone->lock);
1053         return i;
1054 }
1055
1056 #ifdef CONFIG_NUMA
1057 /*
1058  * Called from the vmstat counter updater to drain pagesets of this
1059  * currently executing processor on remote nodes after they have
1060  * expired.
1061  *
1062  * Note that this function must be called with the thread pinned to
1063  * a single processor.
1064  */
1065 void drain_zone_pages(struct zone *zone, struct per_cpu_pages *pcp)
1066 {
1067         unsigned long flags;
1068         int to_drain;
1069
1070         local_irq_save(flags);
1071         if (pcp->count >= pcp->batch)
1072                 to_drain = pcp->batch;
1073         else
1074                 to_drain = pcp->count;
1075         free_pcppages_bulk(zone, to_drain, pcp);
1076         pcp->count -= to_drain;
1077         local_irq_restore(flags);
1078 }
1079 #endif
1080
1081 /*
1082  * Drain pages of the indicated processor.
1083  *
1084  * The processor must either be the current processor and the
1085  * thread pinned to the current processor or a processor that
1086  * is not online.
1087  */
1088 static void drain_pages(unsigned int cpu)
1089 {
1090         unsigned long flags;
1091         struct zone *zone;
1092
1093         for_each_populated_zone(zone) {
1094                 struct per_cpu_pageset *pset;
1095                 struct per_cpu_pages *pcp;
1096
1097                 local_irq_save(flags);
1098                 pset = per_cpu_ptr(zone->pageset, cpu);
1099
1100                 pcp = &pset->pcp;
1101                 if (pcp->count) {
1102                         free_pcppages_bulk(zone, pcp->count, pcp);
1103                         pcp->count = 0;
1104                 }
1105                 local_irq_restore(flags);
1106         }
1107 }
1108
1109 /*
1110  * Spill all of this CPU's per-cpu pages back into the buddy allocator.
1111  */
1112 void drain_local_pages(void *arg)
1113 {
1114         drain_pages(smp_processor_id());
1115 }
1116
1117 /*
1118  * Spill all the per-cpu pages from all CPUs back into the buddy allocator
1119  */
1120 void drain_all_pages(void)
1121 {
1122         on_each_cpu(drain_local_pages, NULL, 1);
1123 }
1124
1125 #ifdef CONFIG_HIBERNATION
1126
1127 void mark_free_pages(struct zone *zone)
1128 {
1129         unsigned long pfn, max_zone_pfn;
1130         unsigned long flags;
1131         int order, t;
1132         struct list_head *curr;
1133
1134         if (!zone->spanned_pages)
1135                 return;
1136
1137         spin_lock_irqsave(&zone->lock, flags);
1138
1139         max_zone_pfn = zone->zone_start_pfn + zone->spanned_pages;
1140         for (pfn = zone->zone_start_pfn; pfn < max_zone_pfn; pfn++)
1141                 if (pfn_valid(pfn)) {
1142                         struct page *page = pfn_to_page(pfn);
1143
1144                         if (!swsusp_page_is_forbidden(page))
1145                                 swsusp_unset_page_free(page);
1146                 }
1147
1148         for_each_migratetype_order(order, t) {
1149                 list_for_each(curr, &zone->free_area[order].free_list[t]) {
1150                         unsigned long i;
1151
1152                         pfn = page_to_pfn(list_entry(curr, struct page, lru));
1153                         for (i = 0; i < (1UL << order); i++)
1154                                 swsusp_set_page_free(pfn_to_page(pfn + i));
1155                 }
1156         }
1157         spin_unlock_irqrestore(&zone->lock, flags);
1158 }
1159 #endif /* CONFIG_PM */
1160
1161 /*
1162  * Free a 0-order page
1163  * cold == 1 ? free a cold page : free a hot page
1164  */
1165 void free_hot_cold_page(struct page *page, int cold)
1166 {
1167         struct zone *zone = page_zone(page);
1168         struct per_cpu_pages *pcp;
1169         unsigned long flags;
1170         int migratetype;
1171         int wasMlocked = __TestClearPageMlocked(page);
1172
1173         if (!free_pages_prepare(page, 0))
1174                 return;
1175
1176         migratetype = get_pageblock_migratetype(page);
1177         set_page_private(page, migratetype);
1178         local_irq_save(flags);
1179         if (unlikely(wasMlocked))
1180                 free_page_mlock(page);
1181         __count_vm_event(PGFREE);
1182
1183         /*
1184          * We only track unmovable, reclaimable and movable on pcp lists.
1185          * Free ISOLATE pages back to the allocator because they are being
1186          * offlined but treat RESERVE as movable pages so we can get those
1187          * areas back if necessary. Otherwise, we may have to free
1188          * excessively into the page allocator
1189          */
1190         if (migratetype >= MIGRATE_PCPTYPES) {
1191                 if (unlikely(migratetype == MIGRATE_ISOLATE)) {
1192                         free_one_page(zone, page, 0, migratetype);
1193                         goto out;
1194                 }
1195                 migratetype = MIGRATE_MOVABLE;
1196         }
1197
1198         pcp = &this_cpu_ptr(zone->pageset)->pcp;
1199         if (cold)
1200                 list_add_tail(&page->lru, &pcp->lists[migratetype]);
1201         else
1202                 list_add(&page->lru, &pcp->lists[migratetype]);
1203         pcp->count++;
1204         if (pcp->count >= pcp->high) {
1205                 free_pcppages_bulk(zone, pcp->batch, pcp);
1206                 pcp->count -= pcp->batch;
1207         }
1208
1209 out:
1210         local_irq_restore(flags);
1211 }
1212
1213 /*
1214  * split_page takes a non-compound higher-order page, and splits it into
1215  * n (1<<order) sub-pages: page[0..n]
1216  * Each sub-page must be freed individually.
1217  *
1218  * Note: this is probably too low level an operation for use in drivers.
1219  * Please consult with lkml before using this in your driver.
1220  */
1221 void split_page(struct page *page, unsigned int order)
1222 {
1223         int i;
1224
1225         VM_BUG_ON(PageCompound(page));
1226         VM_BUG_ON(!page_count(page));
1227
1228 #ifdef CONFIG_KMEMCHECK
1229         /*
1230          * Split shadow pages too, because free(page[0]) would
1231          * otherwise free the whole shadow.
1232          */
1233         if (kmemcheck_page_is_tracked(page))
1234                 split_page(virt_to_page(page[0].shadow), order);
1235 #endif
1236
1237         for (i = 1; i < (1 << order); i++)
1238                 set_page_refcounted(page + i);
1239 }
1240
1241 /*
1242  * Similar to split_page except the page is already free. As this is only
1243  * being used for migration, the migratetype of the block also changes.
1244  * As this is called with interrupts disabled, the caller is responsible
1245  * for calling arch_alloc_page() and kernel_map_page() after interrupts
1246  * are enabled.
1247  *
1248  * Note: this is probably too low level an operation for use in drivers.
1249  * Please consult with lkml before using this in your driver.
1250  */
1251 int split_free_page(struct page *page)
1252 {
1253         unsigned int order;
1254         unsigned long watermark;
1255         struct zone *zone;
1256
1257         BUG_ON(!PageBuddy(page));
1258
1259         zone = page_zone(page);
1260         order = page_order(page);
1261
1262         /* Obey watermarks as if the page was being allocated */
1263         watermark = low_wmark_pages(zone) + (1 << order);
1264         if (!zone_watermark_ok(zone, 0, watermark, 0, 0))
1265                 return 0;
1266
1267         /* Remove page from free list */
1268         list_del(&page->lru);
1269         zone->free_area[order].nr_free--;
1270         rmv_page_order(page);
1271         __mod_zone_page_state(zone, NR_FREE_PAGES, -(1UL << order));
1272
1273         /* Split into individual pages */
1274         set_page_refcounted(page);
1275         split_page(page, order);
1276
1277         if (order >= pageblock_order - 1) {
1278                 struct page *endpage = page + (1 << order) - 1;
1279                 for (; page < endpage; page += pageblock_nr_pages)
1280                         set_pageblock_migratetype(page, MIGRATE_MOVABLE);
1281         }
1282
1283         return 1 << order;
1284 }
1285
1286 /*
1287  * Really, prep_compound_page() should be called from __rmqueue_bulk().  But
1288  * we cheat by calling it from here, in the order > 0 path.  Saves a branch
1289  * or two.
1290  */
1291 static inline
1292 struct page *buffered_rmqueue(struct zone *preferred_zone,
1293                         struct zone *zone, int order, gfp_t gfp_flags,
1294                         int migratetype)
1295 {
1296         unsigned long flags;
1297         struct page *page;
1298         int cold = !!(gfp_flags & __GFP_COLD);
1299
1300 again:
1301         if (likely(order == 0)) {
1302                 struct per_cpu_pages *pcp;
1303                 struct list_head *list;
1304
1305                 local_irq_save(flags);
1306                 pcp = &this_cpu_ptr(zone->pageset)->pcp;
1307                 list = &pcp->lists[migratetype];
1308                 if (list_empty(list)) {
1309                         pcp->count += rmqueue_bulk(zone, 0,
1310                                         pcp->batch, list,
1311                                         migratetype, cold);
1312                         if (unlikely(list_empty(list)))
1313                                 goto failed;
1314                 }
1315
1316                 if (cold)
1317                         page = list_entry(list->prev, struct page, lru);
1318                 else
1319                         page = list_entry(list->next, struct page, lru);
1320
1321                 list_del(&page->lru);
1322                 pcp->count--;
1323         } else {
1324                 if (unlikely(gfp_flags & __GFP_NOFAIL)) {
1325                         /*
1326                          * __GFP_NOFAIL is not to be used in new code.
1327                          *
1328                          * All __GFP_NOFAIL callers should be fixed so that they
1329                          * properly detect and handle allocation failures.
1330                          *
1331                          * We most definitely don't want callers attempting to
1332                          * allocate greater than order-1 page units with
1333                          * __GFP_NOFAIL.
1334                          */
1335                         WARN_ON_ONCE(order > 1);
1336                 }
1337                 spin_lock_irqsave(&zone->lock, flags);
1338                 page = __rmqueue(zone, order, migratetype);
1339                 spin_unlock(&zone->lock);
1340                 if (!page)
1341                         goto failed;
1342                 __mod_zone_page_state(zone, NR_FREE_PAGES, -(1 << order));
1343         }
1344
1345         __count_zone_vm_events(PGALLOC, zone, 1 << order);
1346         zone_statistics(preferred_zone, zone, gfp_flags);
1347         local_irq_restore(flags);
1348
1349         VM_BUG_ON(bad_range(zone, page));
1350         if (prep_new_page(page, order, gfp_flags))
1351                 goto again;
1352         return page;
1353
1354 failed:
1355         local_irq_restore(flags);
1356         return NULL;
1357 }
1358
1359 /* The ALLOC_WMARK bits are used as an index to zone->watermark */
1360 #define ALLOC_WMARK_MIN         WMARK_MIN
1361 #define ALLOC_WMARK_LOW         WMARK_LOW
1362 #define ALLOC_WMARK_HIGH        WMARK_HIGH
1363 #define ALLOC_NO_WATERMARKS     0x04 /* don't check watermarks at all */
1364
1365 /* Mask to get the watermark bits */
1366 #define ALLOC_WMARK_MASK        (ALLOC_NO_WATERMARKS-1)
1367
1368 #define ALLOC_HARDER            0x10 /* try to alloc harder */
1369 #define ALLOC_HIGH              0x20 /* __GFP_HIGH set */
1370 #define ALLOC_CPUSET            0x40 /* check for correct cpuset */
1371
1372 #ifdef CONFIG_FAIL_PAGE_ALLOC
1373
1374 static struct fail_page_alloc_attr {
1375         struct fault_attr attr;
1376
1377         u32 ignore_gfp_highmem;
1378         u32 ignore_gfp_wait;
1379         u32 min_order;
1380
1381 #ifdef CONFIG_FAULT_INJECTION_DEBUG_FS
1382
1383         struct dentry *ignore_gfp_highmem_file;
1384         struct dentry *ignore_gfp_wait_file;
1385         struct dentry *min_order_file;
1386
1387 #endif /* CONFIG_FAULT_INJECTION_DEBUG_FS */
1388
1389 } fail_page_alloc = {
1390         .attr = FAULT_ATTR_INITIALIZER,
1391         .ignore_gfp_wait = 1,
1392         .ignore_gfp_highmem = 1,
1393         .min_order = 1,
1394 };
1395
1396 static int __init setup_fail_page_alloc(char *str)
1397 {
1398         return setup_fault_attr(&fail_page_alloc.attr, str);
1399 }
1400 __setup("fail_page_alloc=", setup_fail_page_alloc);
1401
1402 static int should_fail_alloc_page(gfp_t gfp_mask, unsigned int order)
1403 {
1404         if (order < fail_page_alloc.min_order)
1405                 return 0;
1406         if (gfp_mask & __GFP_NOFAIL)
1407                 return 0;
1408         if (fail_page_alloc.ignore_gfp_highmem && (gfp_mask & __GFP_HIGHMEM))
1409                 return 0;
1410         if (fail_page_alloc.ignore_gfp_wait && (gfp_mask & __GFP_WAIT))
1411                 return 0;
1412
1413         return should_fail(&fail_page_alloc.attr, 1 << order);
1414 }
1415
1416 #ifdef CONFIG_FAULT_INJECTION_DEBUG_FS
1417
1418 static int __init fail_page_alloc_debugfs(void)
1419 {
1420         mode_t mode = S_IFREG | S_IRUSR | S_IWUSR;
1421         struct dentry *dir;
1422         int err;
1423
1424         err = init_fault_attr_dentries(&fail_page_alloc.attr,
1425                                        "fail_page_alloc");
1426         if (err)
1427                 return err;
1428         dir = fail_page_alloc.attr.dentries.dir;
1429
1430         fail_page_alloc.ignore_gfp_wait_file =
1431                 debugfs_create_bool("ignore-gfp-wait", mode, dir,
1432                                       &fail_page_alloc.ignore_gfp_wait);
1433
1434         fail_page_alloc.ignore_gfp_highmem_file =
1435                 debugfs_create_bool("ignore-gfp-highmem", mode, dir,
1436                                       &fail_page_alloc.ignore_gfp_highmem);
1437         fail_page_alloc.min_order_file =
1438                 debugfs_create_u32("min-order", mode, dir,
1439                                    &fail_page_alloc.min_order);
1440
1441         if (!fail_page_alloc.ignore_gfp_wait_file ||
1442             !fail_page_alloc.ignore_gfp_highmem_file ||
1443             !fail_page_alloc.min_order_file) {
1444                 err = -ENOMEM;
1445                 debugfs_remove(fail_page_alloc.ignore_gfp_wait_file);
1446                 debugfs_remove(fail_page_alloc.ignore_gfp_highmem_file);
1447                 debugfs_remove(fail_page_alloc.min_order_file);
1448                 cleanup_fault_attr_dentries(&fail_page_alloc.attr);
1449         }
1450
1451         return err;
1452 }
1453
1454 late_initcall(fail_page_alloc_debugfs);
1455
1456 #endif /* CONFIG_FAULT_INJECTION_DEBUG_FS */
1457
1458 #else /* CONFIG_FAIL_PAGE_ALLOC */
1459
1460 static inline int should_fail_alloc_page(gfp_t gfp_mask, unsigned int order)
1461 {
1462         return 0;
1463 }
1464
1465 #endif /* CONFIG_FAIL_PAGE_ALLOC */
1466
1467 /*
1468  * Return true if free pages are above 'mark'. This takes into account the order
1469  * of the allocation.
1470  */
1471 static bool __zone_watermark_ok(struct zone *z, int order, unsigned long mark,
1472                       int classzone_idx, int alloc_flags, long free_pages)
1473 {
1474         /* free_pages my go negative - that's OK */
1475         long min = mark;
1476         int o;
1477
1478         free_pages -= (1 << order) + 1;
1479         if (alloc_flags & ALLOC_HIGH)
1480                 min -= min / 2;
1481         if (alloc_flags & ALLOC_HARDER)
1482                 min -= min / 4;
1483
1484         if (free_pages <= min + z->lowmem_reserve[classzone_idx])
1485                 return false;
1486         for (o = 0; o < order; o++) {
1487                 /* At the next order, this order's pages become unavailable */
1488                 free_pages -= z->free_area[o].nr_free << o;
1489
1490                 /* Require fewer higher order pages to be free */
1491                 min >>= min_free_order_shift;
1492
1493                 if (free_pages <= min)
1494                         return false;
1495         }
1496         return true;
1497 }
1498
1499 bool zone_watermark_ok(struct zone *z, int order, unsigned long mark,
1500                       int classzone_idx, int alloc_flags)
1501 {
1502         return __zone_watermark_ok(z, order, mark, classzone_idx, alloc_flags,
1503                                         zone_page_state(z, NR_FREE_PAGES));
1504 }
1505
1506 bool zone_watermark_ok_safe(struct zone *z, int order, unsigned long mark,
1507                       int classzone_idx, int alloc_flags)
1508 {
1509         long free_pages = zone_page_state(z, NR_FREE_PAGES);
1510
1511         if (z->percpu_drift_mark && free_pages < z->percpu_drift_mark)
1512                 free_pages = zone_page_state_snapshot(z, NR_FREE_PAGES);
1513
1514         return __zone_watermark_ok(z, order, mark, classzone_idx, alloc_flags,
1515                                                                 free_pages);
1516 }
1517
1518 #ifdef CONFIG_NUMA
1519 /*
1520  * zlc_setup - Setup for "zonelist cache".  Uses cached zone data to
1521  * skip over zones that are not allowed by the cpuset, or that have
1522  * been recently (in last second) found to be nearly full.  See further
1523  * comments in mmzone.h.  Reduces cache footprint of zonelist scans
1524  * that have to skip over a lot of full or unallowed zones.
1525  *
1526  * If the zonelist cache is present in the passed in zonelist, then
1527  * returns a pointer to the allowed node mask (either the current
1528  * tasks mems_allowed, or node_states[N_HIGH_MEMORY].)
1529  *
1530  * If the zonelist cache is not available for this zonelist, does
1531  * nothing and returns NULL.
1532  *
1533  * If the fullzones BITMAP in the zonelist cache is stale (more than
1534  * a second since last zap'd) then we zap it out (clear its bits.)
1535  *
1536  * We hold off even calling zlc_setup, until after we've checked the
1537  * first zone in the zonelist, on the theory that most allocations will
1538  * be satisfied from that first zone, so best to examine that zone as
1539  * quickly as we can.
1540  */
1541 static nodemask_t *zlc_setup(struct zonelist *zonelist, int alloc_flags)
1542 {
1543         struct zonelist_cache *zlc;     /* cached zonelist speedup info */
1544         nodemask_t *allowednodes;       /* zonelist_cache approximation */
1545
1546         zlc = zonelist->zlcache_ptr;
1547         if (!zlc)
1548                 return NULL;
1549
1550         if (time_after(jiffies, zlc->last_full_zap + HZ)) {
1551                 bitmap_zero(zlc->fullzones, MAX_ZONES_PER_ZONELIST);
1552                 zlc->last_full_zap = jiffies;
1553         }
1554
1555         allowednodes = !in_interrupt() && (alloc_flags & ALLOC_CPUSET) ?
1556                                         &cpuset_current_mems_allowed :
1557                                         &node_states[N_HIGH_MEMORY];
1558         return allowednodes;
1559 }
1560
1561 /*
1562  * Given 'z' scanning a zonelist, run a couple of quick checks to see
1563  * if it is worth looking at further for free memory:
1564  *  1) Check that the zone isn't thought to be full (doesn't have its
1565  *     bit set in the zonelist_cache fullzones BITMAP).
1566  *  2) Check that the zones node (obtained from the zonelist_cache
1567  *     z_to_n[] mapping) is allowed in the passed in allowednodes mask.
1568  * Return true (non-zero) if zone is worth looking at further, or
1569  * else return false (zero) if it is not.
1570  *
1571  * This check -ignores- the distinction between various watermarks,
1572  * such as GFP_HIGH, GFP_ATOMIC, PF_MEMALLOC, ...  If a zone is
1573  * found to be full for any variation of these watermarks, it will
1574  * be considered full for up to one second by all requests, unless
1575  * we are so low on memory on all allowed nodes that we are forced
1576  * into the second scan of the zonelist.
1577  *
1578  * In the second scan we ignore this zonelist cache and exactly
1579  * apply the watermarks to all zones, even it is slower to do so.
1580  * We are low on memory in the second scan, and should leave no stone
1581  * unturned looking for a free page.
1582  */
1583 static int zlc_zone_worth_trying(struct zonelist *zonelist, struct zoneref *z,
1584                                                 nodemask_t *allowednodes)
1585 {
1586         struct zonelist_cache *zlc;     /* cached zonelist speedup info */
1587         int i;                          /* index of *z in zonelist zones */
1588         int n;                          /* node that zone *z is on */
1589
1590         zlc = zonelist->zlcache_ptr;
1591         if (!zlc)
1592                 return 1;
1593
1594         i = z - zonelist->_zonerefs;
1595         n = zlc->z_to_n[i];
1596
1597         /* This zone is worth trying if it is allowed but not full */
1598         return node_isset(n, *allowednodes) && !test_bit(i, zlc->fullzones);
1599 }
1600
1601 /*
1602  * Given 'z' scanning a zonelist, set the corresponding bit in
1603  * zlc->fullzones, so that subsequent attempts to allocate a page
1604  * from that zone don't waste time re-examining it.
1605  */
1606 static void zlc_mark_zone_full(struct zonelist *zonelist, struct zoneref *z)
1607 {
1608         struct zonelist_cache *zlc;     /* cached zonelist speedup info */
1609         int i;                          /* index of *z in zonelist zones */
1610
1611         zlc = zonelist->zlcache_ptr;
1612         if (!zlc)
1613                 return;
1614
1615         i = z - zonelist->_zonerefs;
1616
1617         set_bit(i, zlc->fullzones);
1618 }
1619
1620 #else   /* CONFIG_NUMA */
1621
1622 static nodemask_t *zlc_setup(struct zonelist *zonelist, int alloc_flags)
1623 {
1624         return NULL;
1625 }
1626
1627 static int zlc_zone_worth_trying(struct zonelist *zonelist, struct zoneref *z,
1628                                 nodemask_t *allowednodes)
1629 {
1630         return 1;
1631 }
1632
1633 static void zlc_mark_zone_full(struct zonelist *zonelist, struct zoneref *z)
1634 {
1635 }
1636 #endif  /* CONFIG_NUMA */
1637
1638 /*
1639  * get_page_from_freelist goes through the zonelist trying to allocate
1640  * a page.
1641  */
1642 static struct page *
1643 get_page_from_freelist(gfp_t gfp_mask, nodemask_t *nodemask, unsigned int order,
1644                 struct zonelist *zonelist, int high_zoneidx, int alloc_flags,
1645                 struct zone *preferred_zone, int migratetype)
1646 {
1647         struct zoneref *z;
1648         struct page *page = NULL;
1649         int classzone_idx;
1650         struct zone *zone;
1651         nodemask_t *allowednodes = NULL;/* zonelist_cache approximation */
1652         int zlc_active = 0;             /* set if using zonelist_cache */
1653         int did_zlc_setup = 0;          /* just call zlc_setup() one time */
1654
1655         classzone_idx = zone_idx(preferred_zone);
1656 zonelist_scan:
1657         /*
1658          * Scan zonelist, looking for a zone with enough free.
1659          * See also cpuset_zone_allowed() comment in kernel/cpuset.c.
1660          */
1661         for_each_zone_zonelist_nodemask(zone, z, zonelist,
1662                                                 high_zoneidx, nodemask) {
1663                 if (NUMA_BUILD && zlc_active &&
1664                         !zlc_zone_worth_trying(zonelist, z, allowednodes))
1665                                 continue;
1666                 if ((alloc_flags & ALLOC_CPUSET) &&
1667                         !cpuset_zone_allowed_softwall(zone, gfp_mask))
1668                                 goto try_next_zone;
1669
1670                 BUILD_BUG_ON(ALLOC_NO_WATERMARKS < NR_WMARK);
1671                 if (!(alloc_flags & ALLOC_NO_WATERMARKS)) {
1672                         unsigned long mark;
1673                         int ret;
1674
1675                         mark = zone->watermark[alloc_flags & ALLOC_WMARK_MASK];
1676                         if (zone_watermark_ok(zone, order, mark,
1677                                     classzone_idx, alloc_flags))
1678                                 goto try_this_zone;
1679
1680                         if (zone_reclaim_mode == 0)
1681                                 goto this_zone_full;
1682
1683                         ret = zone_reclaim(zone, gfp_mask, order);
1684                         switch (ret) {
1685                         case ZONE_RECLAIM_NOSCAN:
1686                                 /* did not scan */
1687                                 goto try_next_zone;
1688                         case ZONE_RECLAIM_FULL:
1689                                 /* scanned but unreclaimable */
1690                                 goto this_zone_full;
1691                         default:
1692                                 /* did we reclaim enough */
1693                                 if (!zone_watermark_ok(zone, order, mark,
1694                                                 classzone_idx, alloc_flags))
1695                                         goto this_zone_full;
1696                         }
1697                 }
1698
1699 try_this_zone:
1700                 page = buffered_rmqueue(preferred_zone, zone, order,
1701                                                 gfp_mask, migratetype);
1702                 if (page)
1703                         break;
1704 this_zone_full:
1705                 if (NUMA_BUILD)
1706                         zlc_mark_zone_full(zonelist, z);
1707 try_next_zone:
1708                 if (NUMA_BUILD && !did_zlc_setup && nr_online_nodes > 1) {
1709                         /*
1710                          * we do zlc_setup after the first zone is tried but only
1711                          * if there are multiple nodes make it worthwhile
1712                          */
1713                         allowednodes = zlc_setup(zonelist, alloc_flags);
1714                         zlc_active = 1;
1715                         did_zlc_setup = 1;
1716                 }
1717         }
1718
1719         if (unlikely(NUMA_BUILD && page == NULL && zlc_active)) {
1720                 /* Disable zlc cache for second zonelist scan */
1721                 zlc_active = 0;
1722                 goto zonelist_scan;
1723         }
1724         return page;
1725 }
1726
1727 /*
1728  * Large machines with many possible nodes should not always dump per-node
1729  * meminfo in irq context.
1730  */
1731 static inline bool should_suppress_show_mem(void)
1732 {
1733         bool ret = false;
1734
1735 #if NODES_SHIFT > 8
1736         ret = in_interrupt();
1737 #endif
1738         return ret;
1739 }
1740
1741 static DEFINE_RATELIMIT_STATE(nopage_rs,
1742                 DEFAULT_RATELIMIT_INTERVAL,
1743                 DEFAULT_RATELIMIT_BURST);
1744
1745 void warn_alloc_failed(gfp_t gfp_mask, int order, const char *fmt, ...)
1746 {
1747         va_list args;
1748         unsigned int filter = SHOW_MEM_FILTER_NODES;
1749
1750         if ((gfp_mask & __GFP_NOWARN) || !__ratelimit(&nopage_rs))
1751                 return;
1752
1753         /*
1754          * This documents exceptions given to allocations in certain
1755          * contexts that are allowed to allocate outside current's set
1756          * of allowed nodes.
1757          */
1758         if (!(gfp_mask & __GFP_NOMEMALLOC))
1759                 if (test_thread_flag(TIF_MEMDIE) ||
1760                     (current->flags & (PF_MEMALLOC | PF_EXITING)))
1761                         filter &= ~SHOW_MEM_FILTER_NODES;
1762         if (in_interrupt() || !(gfp_mask & __GFP_WAIT))
1763                 filter &= ~SHOW_MEM_FILTER_NODES;
1764
1765         if (fmt) {
1766                 printk(KERN_WARNING);
1767                 va_start(args, fmt);
1768                 vprintk(fmt, args);
1769                 va_end(args);
1770         }
1771
1772         pr_warning("%s: page allocation failure: order:%d, mode:0x%x\n",
1773                    current->comm, order, gfp_mask);
1774
1775         dump_stack();
1776         if (!should_suppress_show_mem())
1777                 show_mem(filter);
1778 }
1779
1780 static inline int
1781 should_alloc_retry(gfp_t gfp_mask, unsigned int order,
1782                                 unsigned long pages_reclaimed)
1783 {
1784         /* Do not loop if specifically requested */
1785         if (gfp_mask & __GFP_NORETRY)
1786                 return 0;
1787
1788         /*
1789          * In this implementation, order <= PAGE_ALLOC_COSTLY_ORDER
1790          * means __GFP_NOFAIL, but that may not be true in other
1791          * implementations.
1792          */
1793         if (order <= PAGE_ALLOC_COSTLY_ORDER)
1794                 return 1;
1795
1796         /*
1797          * For order > PAGE_ALLOC_COSTLY_ORDER, if __GFP_REPEAT is
1798          * specified, then we retry until we no longer reclaim any pages
1799          * (above), or we've reclaimed an order of pages at least as
1800          * large as the allocation's order. In both cases, if the
1801          * allocation still fails, we stop retrying.
1802          */
1803         if (gfp_mask & __GFP_REPEAT && pages_reclaimed < (1 << order))
1804                 return 1;
1805
1806         /*
1807          * Don't let big-order allocations loop unless the caller
1808          * explicitly requests that.
1809          */
1810         if (gfp_mask & __GFP_NOFAIL)
1811                 return 1;
1812
1813         return 0;
1814 }
1815
1816 static inline struct page *
1817 __alloc_pages_may_oom(gfp_t gfp_mask, unsigned int order,
1818         struct zonelist *zonelist, enum zone_type high_zoneidx,
1819         nodemask_t *nodemask, struct zone *preferred_zone,
1820         int migratetype)
1821 {
1822         struct page *page;
1823
1824         /* Acquire the OOM killer lock for the zones in zonelist */
1825         if (!try_set_zonelist_oom(zonelist, gfp_mask)) {
1826                 schedule_timeout_uninterruptible(1);
1827                 return NULL;
1828         }
1829
1830         /*
1831          * Go through the zonelist yet one more time, keep very high watermark
1832          * here, this is only to catch a parallel oom killing, we must fail if
1833          * we're still under heavy pressure.
1834          */
1835         page = get_page_from_freelist(gfp_mask|__GFP_HARDWALL, nodemask,
1836                 order, zonelist, high_zoneidx,
1837                 ALLOC_WMARK_HIGH|ALLOC_CPUSET,
1838                 preferred_zone, migratetype);
1839         if (page)
1840                 goto out;
1841
1842         if (!(gfp_mask & __GFP_NOFAIL)) {
1843                 /* The OOM killer will not help higher order allocs */
1844                 if (order > PAGE_ALLOC_COSTLY_ORDER)
1845                         goto out;
1846                 /* The OOM killer does not needlessly kill tasks for lowmem */
1847                 if (high_zoneidx < ZONE_NORMAL)
1848                         goto out;
1849                 /*
1850                  * GFP_THISNODE contains __GFP_NORETRY and we never hit this.
1851                  * Sanity check for bare calls of __GFP_THISNODE, not real OOM.
1852                  * The caller should handle page allocation failure by itself if
1853                  * it specifies __GFP_THISNODE.
1854                  * Note: Hugepage uses it but will hit PAGE_ALLOC_COSTLY_ORDER.
1855                  */
1856                 if (gfp_mask & __GFP_THISNODE)
1857                         goto out;
1858         }
1859         /* Exhausted what can be done so it's blamo time */
1860         out_of_memory(zonelist, gfp_mask, order, nodemask);
1861
1862 out:
1863         clear_zonelist_oom(zonelist, gfp_mask);
1864         return page;
1865 }
1866
1867 #ifdef CONFIG_COMPACTION
1868 /* Try memory compaction for high-order allocations before reclaim */
1869 static struct page *
1870 __alloc_pages_direct_compact(gfp_t gfp_mask, unsigned int order,
1871         struct zonelist *zonelist, enum zone_type high_zoneidx,
1872         nodemask_t *nodemask, int alloc_flags, struct zone *preferred_zone,
1873         int migratetype, unsigned long *did_some_progress,
1874         bool sync_migration)
1875 {
1876         struct page *page;
1877
1878         if (!order || compaction_deferred(preferred_zone))
1879                 return NULL;
1880
1881         current->flags |= PF_MEMALLOC;
1882         *did_some_progress = try_to_compact_pages(zonelist, order, gfp_mask,
1883                                                 nodemask, sync_migration);
1884         current->flags &= ~PF_MEMALLOC;
1885         if (*did_some_progress != COMPACT_SKIPPED) {
1886
1887                 /* Page migration frees to the PCP lists but we want merging */
1888                 drain_pages(get_cpu());
1889                 put_cpu();
1890
1891                 page = get_page_from_freelist(gfp_mask, nodemask,
1892                                 order, zonelist, high_zoneidx,
1893                                 alloc_flags, preferred_zone,
1894                                 migratetype);
1895                 if (page) {
1896                         preferred_zone->compact_considered = 0;
1897                         preferred_zone->compact_defer_shift = 0;
1898                         count_vm_event(COMPACTSUCCESS);
1899                         return page;
1900                 }
1901
1902                 /*
1903                  * It's bad if compaction run occurs and fails.
1904                  * The most likely reason is that pages exist,
1905                  * but not enough to satisfy watermarks.
1906                  */
1907                 count_vm_event(COMPACTFAIL);
1908                 defer_compaction(preferred_zone);
1909
1910                 cond_resched();
1911         }
1912
1913         return NULL;
1914 }
1915 #else
1916 static inline struct page *
1917 __alloc_pages_direct_compact(gfp_t gfp_mask, unsigned int order,
1918         struct zonelist *zonelist, enum zone_type high_zoneidx,
1919         nodemask_t *nodemask, int alloc_flags, struct zone *preferred_zone,
1920         int migratetype, unsigned long *did_some_progress,
1921         bool sync_migration)
1922 {
1923         return NULL;
1924 }
1925 #endif /* CONFIG_COMPACTION */
1926
1927 /* The really slow allocator path where we enter direct reclaim */
1928 static inline struct page *
1929 __alloc_pages_direct_reclaim(gfp_t gfp_mask, unsigned int order,
1930         struct zonelist *zonelist, enum zone_type high_zoneidx,
1931         nodemask_t *nodemask, int alloc_flags, struct zone *preferred_zone,
1932         int migratetype, unsigned long *did_some_progress)
1933 {
1934         struct page *page = NULL;
1935         struct reclaim_state reclaim_state;
1936         bool drained = false;
1937
1938         cond_resched();
1939
1940         /* We now go into synchronous reclaim */
1941         cpuset_memory_pressure_bump();
1942         current->flags |= PF_MEMALLOC;
1943         lockdep_set_current_reclaim_state(gfp_mask);
1944         reclaim_state.reclaimed_slab = 0;
1945         current->reclaim_state = &reclaim_state;
1946
1947         *did_some_progress = try_to_free_pages(zonelist, order, gfp_mask, nodemask);
1948
1949         current->reclaim_state = NULL;
1950         lockdep_clear_current_reclaim_state();
1951         current->flags &= ~PF_MEMALLOC;
1952
1953         cond_resched();
1954
1955         if (unlikely(!(*did_some_progress)))
1956                 return NULL;
1957
1958 retry:
1959         page = get_page_from_freelist(gfp_mask, nodemask, order,
1960                                         zonelist, high_zoneidx,
1961                                         alloc_flags, preferred_zone,
1962                                         migratetype);
1963
1964         /*
1965          * If an allocation failed after direct reclaim, it could be because
1966          * pages are pinned on the per-cpu lists. Drain them and try again
1967          */
1968         if (!page && !drained) {
1969                 drain_all_pages();
1970                 drained = true;
1971                 goto retry;
1972         }
1973
1974         return page;
1975 }
1976
1977 /*
1978  * This is called in the allocator slow-path if the allocation request is of
1979  * sufficient urgency to ignore watermarks and take other desperate measures
1980  */
1981 static inline struct page *
1982 __alloc_pages_high_priority(gfp_t gfp_mask, unsigned int order,
1983         struct zonelist *zonelist, enum zone_type high_zoneidx,
1984         nodemask_t *nodemask, struct zone *preferred_zone,
1985         int migratetype)
1986 {
1987         struct page *page;
1988
1989         do {
1990                 page = get_page_from_freelist(gfp_mask, nodemask, order,
1991                         zonelist, high_zoneidx, ALLOC_NO_WATERMARKS,
1992                         preferred_zone, migratetype);
1993
1994                 if (!page && gfp_mask & __GFP_NOFAIL)
1995                         wait_iff_congested(preferred_zone, BLK_RW_ASYNC, HZ/50);
1996         } while (!page && (gfp_mask & __GFP_NOFAIL));
1997
1998         return page;
1999 }
2000
2001 static inline
2002 void wake_all_kswapd(unsigned int order, struct zonelist *zonelist,
2003                                                 enum zone_type high_zoneidx,
2004                                                 enum zone_type classzone_idx)
2005 {
2006         struct zoneref *z;
2007         struct zone *zone;
2008
2009         for_each_zone_zonelist(zone, z, zonelist, high_zoneidx)
2010                 wakeup_kswapd(zone, order, classzone_idx);
2011 }
2012
2013 static inline int
2014 gfp_to_alloc_flags(gfp_t gfp_mask)
2015 {
2016         int alloc_flags = ALLOC_WMARK_MIN | ALLOC_CPUSET;
2017         const gfp_t wait = gfp_mask & __GFP_WAIT;
2018
2019         /* __GFP_HIGH is assumed to be the same as ALLOC_HIGH to save a branch. */
2020         BUILD_BUG_ON(__GFP_HIGH != (__force gfp_t) ALLOC_HIGH);
2021
2022         /*
2023          * The caller may dip into page reserves a bit more if the caller
2024          * cannot run direct reclaim, or if the caller has realtime scheduling
2025          * policy or is asking for __GFP_HIGH memory.  GFP_ATOMIC requests will
2026          * set both ALLOC_HARDER (!wait) and ALLOC_HIGH (__GFP_HIGH).
2027          */
2028         alloc_flags |= (__force int) (gfp_mask & __GFP_HIGH);
2029
2030         if (!wait) {
2031                 /*
2032                  * Not worth trying to allocate harder for
2033                  * __GFP_NOMEMALLOC even if it can't schedule.
2034                  */
2035                 if  (!(gfp_mask & __GFP_NOMEMALLOC))
2036                         alloc_flags |= ALLOC_HARDER;
2037                 /*
2038                  * Ignore cpuset if GFP_ATOMIC (!wait) rather than fail alloc.
2039                  * See also cpuset_zone_allowed() comment in kernel/cpuset.c.
2040                  */
2041                 alloc_flags &= ~ALLOC_CPUSET;
2042         } else if (unlikely(rt_task(current)) && !in_interrupt())
2043                 alloc_flags |= ALLOC_HARDER;
2044
2045         if (likely(!(gfp_mask & __GFP_NOMEMALLOC))) {
2046                 if (!in_interrupt() &&
2047                     ((current->flags & PF_MEMALLOC) ||
2048                      unlikely(test_thread_flag(TIF_MEMDIE))))
2049                         alloc_flags |= ALLOC_NO_WATERMARKS;
2050         }
2051
2052         return alloc_flags;
2053 }
2054
2055 static inline struct page *
2056 __alloc_pages_slowpath(gfp_t gfp_mask, unsigned int order,
2057         struct zonelist *zonelist, enum zone_type high_zoneidx,
2058         nodemask_t *nodemask, struct zone *preferred_zone,
2059         int migratetype)
2060 {
2061         const gfp_t wait = gfp_mask & __GFP_WAIT;
2062         struct page *page = NULL;
2063         int alloc_flags;
2064         unsigned long pages_reclaimed = 0;
2065         unsigned long did_some_progress;
2066         bool sync_migration = false;
2067
2068         /*
2069          * In the slowpath, we sanity check order to avoid ever trying to
2070          * reclaim >= MAX_ORDER areas which will never succeed. Callers may
2071          * be using allocators in order of preference for an area that is
2072          * too large.
2073          */
2074         if (order >= MAX_ORDER) {
2075                 WARN_ON_ONCE(!(gfp_mask & __GFP_NOWARN));
2076                 return NULL;
2077         }
2078
2079         /*
2080          * GFP_THISNODE (meaning __GFP_THISNODE, __GFP_NORETRY and
2081          * __GFP_NOWARN set) should not cause reclaim since the subsystem
2082          * (f.e. slab) using GFP_THISNODE may choose to trigger reclaim
2083          * using a larger set of nodes after it has established that the
2084          * allowed per node queues are empty and that nodes are
2085          * over allocated.
2086          */
2087         if (NUMA_BUILD && (gfp_mask & GFP_THISNODE) == GFP_THISNODE)
2088                 goto nopage;
2089
2090 restart:
2091         if (!(gfp_mask & __GFP_NO_KSWAPD))
2092                 wake_all_kswapd(order, zonelist, high_zoneidx,
2093                                                 zone_idx(preferred_zone));
2094
2095         /*
2096          * OK, we're below the kswapd watermark and have kicked background
2097          * reclaim. Now things get more complex, so set up alloc_flags according
2098          * to how we want to proceed.
2099          */
2100         alloc_flags = gfp_to_alloc_flags(gfp_mask);
2101
2102         /*
2103          * Find the true preferred zone if the allocation is unconstrained by
2104          * cpusets.
2105          */
2106         if (!(alloc_flags & ALLOC_CPUSET) && !nodemask)
2107                 first_zones_zonelist(zonelist, high_zoneidx, NULL,
2108                                         &preferred_zone);
2109
2110 rebalance:
2111         /* This is the last chance, in general, before the goto nopage. */
2112         page = get_page_from_freelist(gfp_mask, nodemask, order, zonelist,
2113                         high_zoneidx, alloc_flags & ~ALLOC_NO_WATERMARKS,
2114                         preferred_zone, migratetype);
2115         if (page)
2116                 goto got_pg;
2117
2118         /* Allocate without watermarks if the context allows */
2119         if (alloc_flags & ALLOC_NO_WATERMARKS) {
2120                 page = __alloc_pages_high_priority(gfp_mask, order,
2121                                 zonelist, high_zoneidx, nodemask,
2122                                 preferred_zone, migratetype);
2123                 if (page)
2124                         goto got_pg;
2125         }
2126
2127         /* Atomic allocations - we can't balance anything */
2128         if (!wait)
2129                 goto nopage;
2130
2131         /* Avoid recursion of direct reclaim */
2132         if (current->flags & PF_MEMALLOC)
2133                 goto nopage;
2134
2135         /* Avoid allocations with no watermarks from looping endlessly */
2136         if (test_thread_flag(TIF_MEMDIE) && !(gfp_mask & __GFP_NOFAIL))
2137                 goto nopage;
2138
2139         /*
2140          * Try direct compaction. The first pass is asynchronous. Subsequent
2141          * attempts after direct reclaim are synchronous
2142          */
2143         page = __alloc_pages_direct_compact(gfp_mask, order,
2144                                         zonelist, high_zoneidx,
2145                                         nodemask,
2146                                         alloc_flags, preferred_zone,
2147                                         migratetype, &did_some_progress,
2148                                         sync_migration);
2149         if (page)
2150                 goto got_pg;
2151         sync_migration = true;
2152
2153         /* Try direct reclaim and then allocating */
2154         page = __alloc_pages_direct_reclaim(gfp_mask, order,
2155                                         zonelist, high_zoneidx,
2156                                         nodemask,
2157                                         alloc_flags, preferred_zone,
2158                                         migratetype, &did_some_progress);
2159         if (page)
2160                 goto got_pg;
2161
2162         /*
2163          * If we failed to make any progress reclaiming, then we are
2164          * running out of options and have to consider going OOM
2165          */
2166         if (!did_some_progress) {
2167                 if ((gfp_mask & __GFP_FS) && !(gfp_mask & __GFP_NORETRY)) {
2168                         if (oom_killer_disabled)
2169                                 goto nopage;
2170                         page = __alloc_pages_may_oom(gfp_mask, order,
2171                                         zonelist, high_zoneidx,
2172                                         nodemask, preferred_zone,
2173                                         migratetype);
2174                         if (page)
2175                                 goto got_pg;
2176
2177                         if (!(gfp_mask & __GFP_NOFAIL)) {
2178                                 /*
2179                                  * The oom killer is not called for high-order
2180                                  * allocations that may fail, so if no progress
2181                                  * is being made, there are no other options and
2182                                  * retrying is unlikely to help.
2183                                  */
2184                                 if (order > PAGE_ALLOC_COSTLY_ORDER)
2185                                         goto nopage;
2186                                 /*
2187                                  * The oom killer is not called for lowmem
2188                                  * allocations to prevent needlessly killing
2189                                  * innocent tasks.
2190                                  */
2191                                 if (high_zoneidx < ZONE_NORMAL)
2192                                         goto nopage;
2193                         }
2194
2195                         goto restart;
2196                 }
2197         }
2198
2199         /* Check if we should retry the allocation */
2200         pages_reclaimed += did_some_progress;
2201         if (should_alloc_retry(gfp_mask, order, pages_reclaimed)) {
2202                 /* Wait for some write requests to complete then retry */
2203                 wait_iff_congested(preferred_zone, BLK_RW_ASYNC, HZ/50);
2204                 goto rebalance;
2205         } else {
2206                 /*
2207                  * High-order allocations do not necessarily loop after
2208                  * direct reclaim and reclaim/compaction depends on compaction
2209                  * being called after reclaim so call directly if necessary
2210                  */
2211                 page = __alloc_pages_direct_compact(gfp_mask, order,
2212                                         zonelist, high_zoneidx,
2213                                         nodemask,
2214                                         alloc_flags, preferred_zone,
2215                                         migratetype, &did_some_progress,
2216                                         sync_migration);
2217                 if (page)
2218                         goto got_pg;
2219         }
2220
2221 nopage:
2222         warn_alloc_failed(gfp_mask, order, NULL);
2223         return page;
2224 got_pg:
2225         if (kmemcheck_enabled)
2226                 kmemcheck_pagealloc_alloc(page, order, gfp_mask);
2227         return page;
2228
2229 }
2230
2231 /*
2232  * This is the 'heart' of the zoned buddy allocator.
2233  */
2234 struct page *
2235 __alloc_pages_nodemask(gfp_t gfp_mask, unsigned int order,
2236                         struct zonelist *zonelist, nodemask_t *nodemask)
2237 {
2238         enum zone_type high_zoneidx = gfp_zone(gfp_mask);
2239         struct zone *preferred_zone;
2240         struct page *page;
2241         int migratetype = allocflags_to_migratetype(gfp_mask);
2242
2243         gfp_mask &= gfp_allowed_mask;
2244
2245         lockdep_trace_alloc(gfp_mask);
2246
2247         might_sleep_if(gfp_mask & __GFP_WAIT);
2248
2249         if (should_fail_alloc_page(gfp_mask, order))
2250                 return NULL;
2251
2252         /*
2253          * Check the zones suitable for the gfp_mask contain at least one
2254          * valid zone. It's possible to have an empty zonelist as a result
2255          * of GFP_THISNODE and a memoryless node
2256          */
2257         if (unlikely(!zonelist->_zonerefs->zone))
2258                 return NULL;
2259
2260         get_mems_allowed();
2261         /* The preferred zone is used for statistics later */
2262         first_zones_zonelist(zonelist, high_zoneidx,
2263                                 nodemask ? : &cpuset_current_mems_allowed,
2264                                 &preferred_zone);
2265         if (!preferred_zone) {
2266                 put_mems_allowed();
2267                 return NULL;
2268         }
2269
2270         /* First allocation attempt */
2271         page = get_page_from_freelist(gfp_mask|__GFP_HARDWALL, nodemask, order,
2272                         zonelist, high_zoneidx, ALLOC_WMARK_LOW|ALLOC_CPUSET,
2273                         preferred_zone, migratetype);
2274         if (unlikely(!page))
2275                 page = __alloc_pages_slowpath(gfp_mask, order,
2276                                 zonelist, high_zoneidx, nodemask,
2277                                 preferred_zone, migratetype);
2278         put_mems_allowed();
2279
2280         trace_mm_page_alloc(page, order, gfp_mask, migratetype);
2281         return page;
2282 }
2283 EXPORT_SYMBOL(__alloc_pages_nodemask);
2284
2285 /*
2286  * Common helper functions.
2287  */
2288 unsigned long __get_free_pages(gfp_t gfp_mask, unsigned int order)
2289 {
2290         struct page *page;
2291
2292         /*
2293          * __get_free_pages() returns a 32-bit address, which cannot represent
2294          * a highmem page
2295          */
2296         VM_BUG_ON((gfp_mask & __GFP_HIGHMEM) != 0);
2297
2298         page = alloc_pages(gfp_mask, order);
2299         if (!page)
2300                 return 0;
2301         return (unsigned long) page_address(page);
2302 }
2303 EXPORT_SYMBOL(__get_free_pages);
2304
2305 unsigned long get_zeroed_page(gfp_t gfp_mask)
2306 {
2307         return __get_free_pages(gfp_mask | __GFP_ZERO, 0);
2308 }
2309 EXPORT_SYMBOL(get_zeroed_page);
2310
2311 void __pagevec_free(struct pagevec *pvec)
2312 {
2313         int i = pagevec_count(pvec);
2314
2315         while (--i >= 0) {
2316                 trace_mm_pagevec_free(pvec->pages[i], pvec->cold);
2317                 free_hot_cold_page(pvec->pages[i], pvec->cold);
2318         }
2319 }
2320
2321 void __free_pages(struct page *page, unsigned int order)
2322 {
2323         if (put_page_testzero(page)) {
2324                 if (order == 0)
2325                         free_hot_cold_page(page, 0);
2326                 else
2327                         __free_pages_ok(page, order);
2328         }
2329 }
2330
2331 EXPORT_SYMBOL(__free_pages);
2332
2333 void free_pages(unsigned long addr, unsigned int order)
2334 {
2335         if (addr != 0) {
2336                 VM_BUG_ON(!virt_addr_valid((void *)addr));
2337                 __free_pages(virt_to_page((void *)addr), order);
2338         }
2339 }
2340
2341 EXPORT_SYMBOL(free_pages);
2342
2343 static void *make_alloc_exact(unsigned long addr, unsigned order, size_t size)
2344 {
2345         if (addr) {
2346                 unsigned long alloc_end = addr + (PAGE_SIZE << order);
2347                 unsigned long used = addr + PAGE_ALIGN(size);
2348
2349                 split_page(virt_to_page((void *)addr), order);
2350                 while (used < alloc_end) {
2351                         free_page(used);
2352                         used += PAGE_SIZE;
2353                 }
2354         }
2355         return (void *)addr;
2356 }
2357
2358 /**
2359  * alloc_pages_exact - allocate an exact number physically-contiguous pages.
2360  * @size: the number of bytes to allocate
2361  * @gfp_mask: GFP flags for the allocation
2362  *
2363  * This function is similar to alloc_pages(), except that it allocates the
2364  * minimum number of pages to satisfy the request.  alloc_pages() can only
2365  * allocate memory in power-of-two pages.
2366  *
2367  * This function is also limited by MAX_ORDER.
2368  *
2369  * Memory allocated by this function must be released by free_pages_exact().
2370  */
2371 void *alloc_pages_exact(size_t size, gfp_t gfp_mask)
2372 {
2373         unsigned int order = get_order(size);
2374         unsigned long addr;
2375
2376         addr = __get_free_pages(gfp_mask, order);
2377         return make_alloc_exact(addr, order, size);
2378 }
2379 EXPORT_SYMBOL(alloc_pages_exact);
2380
2381 /**
2382  * alloc_pages_exact_nid - allocate an exact number of physically-contiguous
2383  *                         pages on a node.
2384  * @nid: the preferred node ID where memory should be allocated
2385  * @size: the number of bytes to allocate
2386  * @gfp_mask: GFP flags for the allocation
2387  *
2388  * Like alloc_pages_exact(), but try to allocate on node nid first before falling
2389  * back.
2390  * Note this is not alloc_pages_exact_node() which allocates on a specific node,
2391  * but is not exact.
2392  */
2393 void *alloc_pages_exact_nid(int nid, size_t size, gfp_t gfp_mask)
2394 {
2395         unsigned order = get_order(size);
2396         struct page *p = alloc_pages_node(nid, gfp_mask, order);
2397         if (!p)
2398                 return NULL;
2399         return make_alloc_exact((unsigned long)page_address(p), order, size);
2400 }
2401 EXPORT_SYMBOL(alloc_pages_exact_nid);
2402
2403 /**
2404  * free_pages_exact - release memory allocated via alloc_pages_exact()
2405  * @virt: the value returned by alloc_pages_exact.
2406  * @size: size of allocation, same value as passed to alloc_pages_exact().
2407  *
2408  * Release the memory allocated by a previous call to alloc_pages_exact.
2409  */
2410 void free_pages_exact(void *virt, size_t size)
2411 {
2412         unsigned long addr = (unsigned long)virt;
2413         unsigned long end = addr + PAGE_ALIGN(size);
2414
2415         while (addr < end) {
2416                 free_page(addr);
2417                 addr += PAGE_SIZE;
2418         }
2419 }
2420 EXPORT_SYMBOL(free_pages_exact);
2421
2422 static unsigned int nr_free_zone_pages(int offset)
2423 {
2424         struct zoneref *z;
2425         struct zone *zone;
2426
2427         /* Just pick one node, since fallback list is circular */
2428         unsigned int sum = 0;
2429
2430         struct zonelist *zonelist = node_zonelist(numa_node_id(), GFP_KERNEL);
2431
2432         for_each_zone_zonelist(zone, z, zonelist, offset) {
2433                 unsigned long size = zone->present_pages;
2434                 unsigned long high = high_wmark_pages(zone);
2435                 if (size > high)
2436                         sum += size - high;
2437         }
2438
2439         return sum;
2440 }
2441
2442 /*
2443  * Amount of free RAM allocatable within ZONE_DMA and ZONE_NORMAL
2444  */
2445 unsigned int nr_free_buffer_pages(void)
2446 {
2447         return nr_free_zone_pages(gfp_zone(GFP_USER));
2448 }
2449 EXPORT_SYMBOL_GPL(nr_free_buffer_pages);
2450
2451 /*
2452  * Amount of free RAM allocatable within all zones
2453  */
2454 unsigned int nr_free_pagecache_pages(void)
2455 {
2456         return nr_free_zone_pages(gfp_zone(GFP_HIGHUSER_MOVABLE));
2457 }
2458
2459 static inline void show_node(struct zone *zone)
2460 {
2461         if (NUMA_BUILD)
2462                 printk("Node %d ", zone_to_nid(zone));
2463 }
2464
2465 void si_meminfo(struct sysinfo *val)
2466 {
2467         val->totalram = totalram_pages;
2468         val->sharedram = 0;
2469         val->freeram = global_page_state(NR_FREE_PAGES);
2470         val->bufferram = nr_blockdev_pages();
2471         val->totalhigh = totalhigh_pages;
2472         val->freehigh = nr_free_highpages();
2473         val->mem_unit = PAGE_SIZE;
2474 }
2475
2476 EXPORT_SYMBOL(si_meminfo);
2477
2478 #ifdef CONFIG_NUMA
2479 void si_meminfo_node(struct sysinfo *val, int nid)
2480 {
2481         pg_data_t *pgdat = NODE_DATA(nid);
2482
2483         val->totalram = pgdat->node_present_pages;
2484         val->freeram = node_page_state(nid, NR_FREE_PAGES);
2485 #ifdef CONFIG_HIGHMEM
2486         val->totalhigh = pgdat->node_zones[ZONE_HIGHMEM].present_pages;
2487         val->freehigh = zone_page_state(&pgdat->node_zones[ZONE_HIGHMEM],
2488                         NR_FREE_PAGES);
2489 #else
2490         val->totalhigh = 0;
2491         val->freehigh = 0;
2492 #endif
2493         val->mem_unit = PAGE_SIZE;
2494 }
2495 #endif
2496
2497 /*
2498  * Determine whether the node should be displayed or not, depending on whether
2499  * SHOW_MEM_FILTER_NODES was passed to show_free_areas().
2500  */
2501 bool skip_free_areas_node(unsigned int flags, int nid)
2502 {
2503         bool ret = false;
2504
2505         if (!(flags & SHOW_MEM_FILTER_NODES))
2506                 goto out;
2507
2508         get_mems_allowed();
2509         ret = !node_isset(nid, cpuset_current_mems_allowed);
2510         put_mems_allowed();
2511 out:
2512         return ret;
2513 }
2514
2515 #define K(x) ((x) << (PAGE_SHIFT-10))
2516
2517 /*
2518  * Show free area list (used inside shift_scroll-lock stuff)
2519  * We also calculate the percentage fragmentation. We do this by counting the
2520  * memory on each free list with the exception of the first item on the list.
2521  * Suppresses nodes that are not allowed by current's cpuset if
2522  * SHOW_MEM_FILTER_NODES is passed.
2523  */
2524 void show_free_areas(unsigned int filter)
2525 {
2526         int cpu;
2527         struct zone *zone;
2528
2529         for_each_populated_zone(zone) {
2530                 if (skip_free_areas_node(filter, zone_to_nid(zone)))
2531                         continue;
2532                 show_node(zone);
2533                 printk("%s per-cpu:\n", zone->name);
2534
2535                 for_each_online_cpu(cpu) {
2536                         struct per_cpu_pageset *pageset;
2537
2538                         pageset = per_cpu_ptr(zone->pageset, cpu);
2539
2540                         printk("CPU %4d: hi:%5d, btch:%4d usd:%4d\n",
2541                                cpu, pageset->pcp.high,
2542                                pageset->pcp.batch, pageset->pcp.count);
2543                 }
2544         }
2545
2546         printk("active_anon:%lu inactive_anon:%lu isolated_anon:%lu\n"
2547                 " active_file:%lu inactive_file:%lu isolated_file:%lu\n"
2548                 " unevictable:%lu"
2549                 " dirty:%lu writeback:%lu unstable:%lu\n"
2550                 " free:%lu slab_reclaimable:%lu slab_unreclaimable:%lu\n"
2551                 " mapped:%lu shmem:%lu pagetables:%lu bounce:%lu\n",
2552                 global_page_state(NR_ACTIVE_ANON),
2553                 global_page_state(NR_INACTIVE_ANON),
2554                 global_page_state(NR_ISOLATED_ANON),
2555                 global_page_state(NR_ACTIVE_FILE),
2556                 global_page_state(NR_INACTIVE_FILE),
2557                 global_page_state(NR_ISOLATED_FILE),
2558                 global_page_state(NR_UNEVICTABLE),
2559                 global_page_state(NR_FILE_DIRTY),
2560                 global_page_state(NR_WRITEBACK),
2561                 global_page_state(NR_UNSTABLE_NFS),
2562                 global_page_state(NR_FREE_PAGES),
2563                 global_page_state(NR_SLAB_RECLAIMABLE),
2564                 global_page_state(NR_SLAB_UNRECLAIMABLE),
2565                 global_page_state(NR_FILE_MAPPED),
2566                 global_page_state(NR_SHMEM),
2567                 global_page_state(NR_PAGETABLE),
2568                 global_page_state(NR_BOUNCE));
2569
2570         for_each_populated_zone(zone) {
2571                 int i;
2572
2573                 if (skip_free_areas_node(filter, zone_to_nid(zone)))
2574                         continue;
2575                 show_node(zone);
2576                 printk("%s"
2577                         " free:%lukB"
2578                         " min:%lukB"
2579                         " low:%lukB"
2580                         " high:%lukB"
2581                         " active_anon:%lukB"
2582                         " inactive_anon:%lukB"
2583                         " active_file:%lukB"
2584                         " inactive_file:%lukB"
2585                         " unevictable:%lukB"
2586                         " isolated(anon):%lukB"
2587                         " isolated(file):%lukB"
2588                         " present:%lukB"
2589                         " mlocked:%lukB"
2590                         " dirty:%lukB"
2591                         " writeback:%lukB"
2592                         " mapped:%lukB"
2593                         " shmem:%lukB"
2594                         " slab_reclaimable:%lukB"
2595                         " slab_unreclaimable:%lukB"
2596                         " kernel_stack:%lukB"
2597                         " pagetables:%lukB"
2598                         " unstable:%lukB"
2599                         " bounce:%lukB"
2600                         " writeback_tmp:%lukB"
2601                         " pages_scanned:%lu"
2602                         " all_unreclaimable? %s"
2603                         "\n",
2604                         zone->name,
2605                         K(zone_page_state(zone, NR_FREE_PAGES)),
2606                         K(min_wmark_pages(zone)),
2607                         K(low_wmark_pages(zone)),
2608                         K(high_wmark_pages(zone)),
2609                         K(zone_page_state(zone, NR_ACTIVE_ANON)),
2610                         K(zone_page_state(zone, NR_INACTIVE_ANON)),
2611                         K(zone_page_state(zone, NR_ACTIVE_FILE)),
2612                         K(zone_page_state(zone, NR_INACTIVE_FILE)),
2613                         K(zone_page_state(zone, NR_UNEVICTABLE)),
2614                         K(zone_page_state(zone, NR_ISOLATED_ANON)),
2615                         K(zone_page_state(zone, NR_ISOLATED_FILE)),
2616                         K(zone->present_pages),
2617                         K(zone_page_state(zone, NR_MLOCK)),
2618                         K(zone_page_state(zone, NR_FILE_DIRTY)),
2619                         K(zone_page_state(zone, NR_WRITEBACK)),
2620                         K(zone_page_state(zone, NR_FILE_MAPPED)),
2621                         K(zone_page_state(zone, NR_SHMEM)),
2622                         K(zone_page_state(zone, NR_SLAB_RECLAIMABLE)),
2623                         K(zone_page_state(zone, NR_SLAB_UNRECLAIMABLE)),
2624                         zone_page_state(zone, NR_KERNEL_STACK) *
2625                                 THREAD_SIZE / 1024,
2626                         K(zone_page_state(zone, NR_PAGETABLE)),
2627                         K(zone_page_state(zone, NR_UNSTABLE_NFS)),
2628                         K(zone_page_state(zone, NR_BOUNCE)),
2629                         K(zone_page_state(zone, NR_WRITEBACK_TEMP)),
2630                         zone->pages_scanned,
2631                         (zone->all_unreclaimable ? "yes" : "no")
2632                         );
2633                 printk("lowmem_reserve[]:");
2634                 for (i = 0; i < MAX_NR_ZONES; i++)
2635                         printk(" %lu", zone->lowmem_reserve[i]);
2636                 printk("\n");
2637         }
2638
2639         for_each_populated_zone(zone) {
2640                 unsigned long nr[MAX_ORDER], flags, order, total = 0;
2641
2642                 if (skip_free_areas_node(filter, zone_to_nid(zone)))
2643                         continue;
2644                 show_node(zone);
2645                 printk("%s: ", zone->name);
2646
2647                 spin_lock_irqsave(&zone->lock, flags);
2648                 for (order = 0; order < MAX_ORDER; order++) {
2649                         nr[order] = zone->free_area[order].nr_free;
2650                         total += nr[order] << order;
2651                 }
2652                 spin_unlock_irqrestore(&zone->lock, flags);
2653                 for (order = 0; order < MAX_ORDER; order++)
2654                         printk("%lu*%lukB ", nr[order], K(1UL) << order);
2655                 printk("= %lukB\n", K(total));
2656         }
2657
2658         printk("%ld total pagecache pages\n", global_page_state(NR_FILE_PAGES));
2659
2660         show_swap_cache_info();
2661 }
2662
2663 static void zoneref_set_zone(struct zone *zone, struct zoneref *zoneref)
2664 {
2665         zoneref->zone = zone;
2666         zoneref->zone_idx = zone_idx(zone);
2667 }
2668
2669 /*
2670  * Builds allocation fallback zone lists.
2671  *
2672  * Add all populated zones of a node to the zonelist.
2673  */
2674 static int build_zonelists_node(pg_data_t *pgdat, struct zonelist *zonelist,
2675                                 int nr_zones, enum zone_type zone_type)
2676 {
2677         struct zone *zone;
2678
2679         BUG_ON(zone_type >= MAX_NR_ZONES);
2680         zone_type++;
2681
2682         do {
2683                 zone_type--;
2684                 zone = pgdat->node_zones + zone_type;
2685                 if (populated_zone(zone)) {
2686                         zoneref_set_zone(zone,
2687                                 &zonelist->_zonerefs[nr_zones++]);
2688                         check_highest_zone(zone_type);
2689                 }
2690
2691         } while (zone_type);
2692         return nr_zones;
2693 }
2694
2695
2696 /*
2697  *  zonelist_order:
2698  *  0 = automatic detection of better ordering.
2699  *  1 = order by ([node] distance, -zonetype)
2700  *  2 = order by (-zonetype, [node] distance)
2701  *
2702  *  If not NUMA, ZONELIST_ORDER_ZONE and ZONELIST_ORDER_NODE will create
2703  *  the same zonelist. So only NUMA can configure this param.
2704  */
2705 #define ZONELIST_ORDER_DEFAULT  0
2706 #define ZONELIST_ORDER_NODE     1
2707 #define ZONELIST_ORDER_ZONE     2
2708
2709 /* zonelist order in the kernel.
2710  * set_zonelist_order() will set this to NODE or ZONE.
2711  */
2712 static int current_zonelist_order = ZONELIST_ORDER_DEFAULT;
2713 static char zonelist_order_name[3][8] = {"Default", "Node", "Zone"};
2714
2715
2716 #ifdef CONFIG_NUMA
2717 /* The value user specified ....changed by config */
2718 static int user_zonelist_order = ZONELIST_ORDER_DEFAULT;
2719 /* string for sysctl */
2720 #define NUMA_ZONELIST_ORDER_LEN 16
2721 char numa_zonelist_order[16] = "default";
2722
2723 /*
2724  * interface for configure zonelist ordering.
2725  * command line option "numa_zonelist_order"
2726  *      = "[dD]efault   - default, automatic configuration.
2727  *      = "[nN]ode      - order by node locality, then by zone within node
2728  *      = "[zZ]one      - order by zone, then by locality within zone
2729  */
2730
2731 static int __parse_numa_zonelist_order(char *s)
2732 {
2733         if (*s == 'd' || *s == 'D') {
2734                 user_zonelist_order = ZONELIST_ORDER_DEFAULT;
2735         } else if (*s == 'n' || *s == 'N') {
2736                 user_zonelist_order = ZONELIST_ORDER_NODE;
2737         } else if (*s == 'z' || *s == 'Z') {
2738                 user_zonelist_order = ZONELIST_ORDER_ZONE;
2739         } else {
2740                 printk(KERN_WARNING
2741                         "Ignoring invalid numa_zonelist_order value:  "
2742                         "%s\n", s);
2743                 return -EINVAL;
2744         }
2745         return 0;
2746 }
2747
2748 static __init int setup_numa_zonelist_order(char *s)
2749 {
2750         int ret;
2751
2752         if (!s)
2753                 return 0;
2754
2755         ret = __parse_numa_zonelist_order(s);
2756         if (ret == 0)
2757                 strlcpy(numa_zonelist_order, s, NUMA_ZONELIST_ORDER_LEN);
2758
2759         return ret;
2760 }
2761 early_param("numa_zonelist_order", setup_numa_zonelist_order);
2762
2763 /*
2764  * sysctl handler for numa_zonelist_order
2765  */
2766 int numa_zonelist_order_handler(ctl_table *table, int write,
2767                 void __user *buffer, size_t *length,
2768                 loff_t *ppos)
2769 {
2770         char saved_string[NUMA_ZONELIST_ORDER_LEN];
2771         int ret;
2772         static DEFINE_MUTEX(zl_order_mutex);
2773
2774         mutex_lock(&zl_order_mutex);
2775         if (write)
2776                 strcpy(saved_string, (char*)table->data);
2777         ret = proc_dostring(table, write, buffer, length, ppos);
2778         if (ret)
2779                 goto out;
2780         if (write) {
2781                 int oldval = user_zonelist_order;
2782                 if (__parse_numa_zonelist_order((char*)table->data)) {
2783                         /*
2784                          * bogus value.  restore saved string
2785                          */
2786                         strncpy((char*)table->data, saved_string,
2787                                 NUMA_ZONELIST_ORDER_LEN);
2788                         user_zonelist_order = oldval;
2789                 } else if (oldval != user_zonelist_order) {
2790                         mutex_lock(&zonelists_mutex);
2791                         build_all_zonelists(NULL);
2792                         mutex_unlock(&zonelists_mutex);
2793                 }
2794         }
2795 out:
2796         mutex_unlock(&zl_order_mutex);
2797         return ret;
2798 }
2799
2800
2801 #define MAX_NODE_LOAD (nr_online_nodes)
2802 static int node_load[MAX_NUMNODES];
2803
2804 /**
2805  * find_next_best_node - find the next node that should appear in a given node's fallback list
2806  * @node: node whose fallback list we're appending
2807  * @used_node_mask: nodemask_t of already used nodes
2808  *
2809  * We use a number of factors to determine which is the next node that should
2810  * appear on a given node's fallback list.  The node should not have appeared
2811  * already in @node's fallback list, and it should be the next closest node
2812  * according to the distance array (which contains arbitrary distance values
2813  * from each node to each node in the system), and should also prefer nodes
2814  * with no CPUs, since presumably they'll have very little allocation pressure
2815  * on them otherwise.
2816  * It returns -1 if no node is found.
2817  */
2818 static int find_next_best_node(int node, nodemask_t *used_node_mask)
2819 {
2820         int n, val;
2821         int min_val = INT_MAX;
2822         int best_node = -1;
2823         const struct cpumask *tmp = cpumask_of_node(0);
2824
2825         /* Use the local node if we haven't already */
2826         if (!node_isset(node, *used_node_mask)) {
2827                 node_set(node, *used_node_mask);
2828                 return node;
2829         }
2830
2831         for_each_node_state(n, N_HIGH_MEMORY) {
2832
2833                 /* Don't want a node to appear more than once */
2834                 if (node_isset(n, *used_node_mask))
2835                         continue;
2836
2837                 /* Use the distance array to find the distance */
2838                 val = node_distance(node, n);
2839
2840                 /* Penalize nodes under us ("prefer the next node") */
2841                 val += (n < node);
2842
2843                 /* Give preference to headless and unused nodes */
2844                 tmp = cpumask_of_node(n);
2845                 if (!cpumask_empty(tmp))
2846                         val += PENALTY_FOR_NODE_WITH_CPUS;
2847
2848                 /* Slight preference for less loaded node */
2849                 val *= (MAX_NODE_LOAD*MAX_NUMNODES);
2850                 val += node_load[n];
2851
2852                 if (val < min_val) {
2853                         min_val = val;
2854                         best_node = n;
2855                 }
2856         }
2857
2858         if (best_node >= 0)
2859                 node_set(best_node, *used_node_mask);
2860
2861         return best_node;
2862 }
2863
2864
2865 /*
2866  * Build zonelists ordered by node and zones within node.
2867  * This results in maximum locality--normal zone overflows into local
2868  * DMA zone, if any--but risks exhausting DMA zone.
2869  */
2870 static void build_zonelists_in_node_order(pg_data_t *pgdat, int node)
2871 {
2872         int j;
2873         struct zonelist *zonelist;
2874
2875         zonelist = &pgdat->node_zonelists[0];
2876         for (j = 0; zonelist->_zonerefs[j].zone != NULL; j++)
2877                 ;
2878         j = build_zonelists_node(NODE_DATA(node), zonelist, j,
2879                                                         MAX_NR_ZONES - 1);
2880         zonelist->_zonerefs[j].zone = NULL;
2881         zonelist->_zonerefs[j].zone_idx = 0;
2882 }
2883
2884 /*
2885  * Build gfp_thisnode zonelists
2886  */
2887 static void build_thisnode_zonelists(pg_data_t *pgdat)
2888 {
2889         int j;
2890         struct zonelist *zonelist;
2891
2892         zonelist = &pgdat->node_zonelists[1];
2893         j = build_zonelists_node(pgdat, zonelist, 0, MAX_NR_ZONES - 1);
2894         zonelist->_zonerefs[j].zone = NULL;
2895         zonelist->_zonerefs[j].zone_idx = 0;
2896 }
2897
2898 /*
2899  * Build zonelists ordered by zone and nodes within zones.
2900  * This results in conserving DMA zone[s] until all Normal memory is
2901  * exhausted, but results in overflowing to remote node while memory
2902  * may still exist in local DMA zone.
2903  */
2904 static int node_order[MAX_NUMNODES];
2905
2906 static void build_zonelists_in_zone_order(pg_data_t *pgdat, int nr_nodes)
2907 {
2908         int pos, j, node;
2909         int zone_type;          /* needs to be signed */
2910         struct zone *z;
2911         struct zonelist *zonelist;
2912
2913         zonelist = &pgdat->node_zonelists[0];
2914         pos = 0;
2915         for (zone_type = MAX_NR_ZONES - 1; zone_type >= 0; zone_type--) {
2916                 for (j = 0; j < nr_nodes; j++) {
2917                         node = node_order[j];
2918                         z = &NODE_DATA(node)->node_zones[zone_type];
2919                         if (populated_zone(z)) {
2920                                 zoneref_set_zone(z,
2921                                         &zonelist->_zonerefs[pos++]);
2922                                 check_highest_zone(zone_type);
2923                         }
2924                 }
2925         }
2926         zonelist->_zonerefs[pos].zone = NULL;
2927         zonelist->_zonerefs[pos].zone_idx = 0;
2928 }
2929
2930 static int default_zonelist_order(void)
2931 {
2932         int nid, zone_type;
2933         unsigned long low_kmem_size,total_size;
2934         struct zone *z;
2935         int average_size;
2936         /*
2937          * ZONE_DMA and ZONE_DMA32 can be very small area in the system.
2938          * If they are really small and used heavily, the system can fall
2939          * into OOM very easily.
2940          * This function detect ZONE_DMA/DMA32 size and configures zone order.
2941          */
2942         /* Is there ZONE_NORMAL ? (ex. ppc has only DMA zone..) */
2943         low_kmem_size = 0;
2944         total_size = 0;
2945         for_each_online_node(nid) {
2946                 for (zone_type = 0; zone_type < MAX_NR_ZONES; zone_type++) {
2947                         z = &NODE_DATA(nid)->node_zones[zone_type];
2948                         if (populated_zone(z)) {
2949                                 if (zone_type < ZONE_NORMAL)
2950                                         low_kmem_size += z->present_pages;
2951                                 total_size += z->present_pages;
2952                         } else if (zone_type == ZONE_NORMAL) {
2953                                 /*
2954                                  * If any node has only lowmem, then node order
2955                                  * is preferred to allow kernel allocations
2956                                  * locally; otherwise, they can easily infringe
2957                                  * on other nodes when there is an abundance of
2958                                  * lowmem available to allocate from.
2959                                  */
2960                                 return ZONELIST_ORDER_NODE;
2961                         }
2962                 }
2963         }
2964         if (!low_kmem_size ||  /* there are no DMA area. */
2965             low_kmem_size > total_size/2) /* DMA/DMA32 is big. */
2966                 return ZONELIST_ORDER_NODE;
2967         /*
2968          * look into each node's config.
2969          * If there is a node whose DMA/DMA32 memory is very big area on
2970          * local memory, NODE_ORDER may be suitable.
2971          */
2972         average_size = total_size /
2973                                 (nodes_weight(node_states[N_HIGH_MEMORY]) + 1);
2974         for_each_online_node(nid) {
2975                 low_kmem_size = 0;
2976                 total_size = 0;
2977                 for (zone_type = 0; zone_type < MAX_NR_ZONES; zone_type++) {
2978                         z = &NODE_DATA(nid)->node_zones[zone_type];
2979                         if (populated_zone(z)) {
2980                                 if (zone_type < ZONE_NORMAL)
2981                                         low_kmem_size += z->present_pages;
2982                                 total_size += z->present_pages;
2983                         }
2984                 }
2985                 if (low_kmem_size &&
2986                     total_size > average_size && /* ignore small node */
2987                     low_kmem_size > total_size * 70/100)
2988                         return ZONELIST_ORDER_NODE;
2989         }
2990         return ZONELIST_ORDER_ZONE;
2991 }
2992
2993 static void set_zonelist_order(void)
2994 {
2995         if (user_zonelist_order == ZONELIST_ORDER_DEFAULT)
2996                 current_zonelist_order = default_zonelist_order();
2997         else
2998                 current_zonelist_order = user_zonelist_order;
2999 }
3000
3001 static void build_zonelists(pg_data_t *pgdat)
3002 {
3003         int j, node, load;
3004         enum zone_type i;
3005         nodemask_t used_mask;
3006         int local_node, prev_node;
3007         struct zonelist *zonelist;
3008         int order = current_zonelist_order;
3009
3010         /* initialize zonelists */
3011         for (i = 0; i < MAX_ZONELISTS; i++) {
3012                 zonelist = pgdat->node_zonelists + i;
3013                 zonelist->_zonerefs[0].zone = NULL;
3014                 zonelist->_zonerefs[0].zone_idx = 0;
3015         }
3016
3017         /* NUMA-aware ordering of nodes */
3018         local_node = pgdat->node_id;
3019         load = nr_online_nodes;
3020         prev_node = local_node;
3021         nodes_clear(used_mask);
3022
3023         memset(node_order, 0, sizeof(node_order));
3024         j = 0;
3025
3026         while ((node = find_next_best_node(local_node, &used_mask)) >= 0) {
3027                 int distance = node_distance(local_node, node);
3028
3029                 /*
3030                  * If another node is sufficiently far away then it is better
3031                  * to reclaim pages in a zone before going off node.
3032                  */
3033                 if (distance > RECLAIM_DISTANCE)
3034                         zone_reclaim_mode = 1;
3035
3036                 /*
3037                  * We don't want to pressure a particular node.
3038                  * So adding penalty to the first node in same
3039                  * distance group to make it round-robin.
3040                  */
3041                 if (distance != node_distance(local_node, prev_node))
3042                         node_load[node] = load;
3043
3044                 prev_node = node;
3045                 load--;
3046                 if (order == ZONELIST_ORDER_NODE)
3047                         build_zonelists_in_node_order(pgdat, node);
3048                 else
3049                         node_order[j++] = node; /* remember order */
3050         }
3051
3052         if (order == ZONELIST_ORDER_ZONE) {
3053                 /* calculate node order -- i.e., DMA last! */
3054                 build_zonelists_in_zone_order(pgdat, j);
3055         }
3056
3057         build_thisnode_zonelists(pgdat);
3058 }
3059
3060 /* Construct the zonelist performance cache - see further mmzone.h */
3061 static void build_zonelist_cache(pg_data_t *pgdat)
3062 {
3063         struct zonelist *zonelist;
3064         struct zonelist_cache *zlc;
3065         struct zoneref *z;
3066
3067         zonelist = &pgdat->node_zonelists[0];
3068         zonelist->zlcache_ptr = zlc = &zonelist->zlcache;
3069         bitmap_zero(zlc->fullzones, MAX_ZONES_PER_ZONELIST);
3070         for (z = zonelist->_zonerefs; z->zone; z++)
3071                 zlc->z_to_n[z - zonelist->_zonerefs] = zonelist_node_idx(z);
3072 }
3073
3074 #ifdef CONFIG_HAVE_MEMORYLESS_NODES
3075 /*
3076  * Return node id of node used for "local" allocations.
3077  * I.e., first node id of first zone in arg node's generic zonelist.
3078  * Used for initializing percpu 'numa_mem', which is used primarily
3079  * for kernel allocations, so use GFP_KERNEL flags to locate zonelist.
3080  */
3081 int local_memory_node(int node)
3082 {
3083         struct zone *zone;
3084
3085         (void)first_zones_zonelist(node_zonelist(node, GFP_KERNEL),
3086                                    gfp_zone(GFP_KERNEL),
3087                                    NULL,
3088                                    &zone);
3089         return zone->node;
3090 }
3091 #endif
3092
3093 #else   /* CONFIG_NUMA */
3094
3095 static void set_zonelist_order(void)
3096 {
3097         current_zonelist_order = ZONELIST_ORDER_ZONE;
3098 }
3099
3100 static void build_zonelists(pg_data_t *pgdat)
3101 {
3102         int node, local_node;
3103         enum zone_type j;
3104         struct zonelist *zonelist;
3105
3106         local_node = pgdat->node_id;
3107
3108         zonelist = &pgdat->node_zonelists[0];
3109         j = build_zonelists_node(pgdat, zonelist, 0, MAX_NR_ZONES - 1);
3110
3111         /*
3112          * Now we build the zonelist so that it contains the zones
3113          * of all the other nodes.
3114          * We don't want to pressure a particular node, so when
3115          * building the zones for node N, we make sure that the
3116          * zones coming right after the local ones are those from
3117          * node N+1 (modulo N)
3118          */
3119         for (node = local_node + 1; node < MAX_NUMNODES; node++) {
3120                 if (!node_online(node))
3121                         continue;
3122                 j = build_zonelists_node(NODE_DATA(node), zonelist, j,
3123                                                         MAX_NR_ZONES - 1);
3124         }
3125         for (node = 0; node < local_node; node++) {
3126                 if (!node_online(node))
3127                         continue;
3128                 j = build_zonelists_node(NODE_DATA(node), zonelist, j,
3129                                                         MAX_NR_ZONES - 1);
3130         }
3131
3132         zonelist->_zonerefs[j].zone = NULL;
3133         zonelist->_zonerefs[j].zone_idx = 0;
3134 }
3135
3136 /* non-NUMA variant of zonelist performance cache - just NULL zlcache_ptr */
3137 static void build_zonelist_cache(pg_data_t *pgdat)
3138 {
3139         pgdat->node_zonelists[0].zlcache_ptr = NULL;
3140 }
3141
3142 #endif  /* CONFIG_NUMA */
3143
3144 /*
3145  * Boot pageset table. One per cpu which is going to be used for all
3146  * zones and all nodes. The parameters will be set in such a way
3147  * that an item put on a list will immediately be handed over to
3148  * the buddy list. This is safe since pageset manipulation is done
3149  * with interrupts disabled.
3150  *
3151  * The boot_pagesets must be kept even after bootup is complete for
3152  * unused processors and/or zones. They do play a role for bootstrapping
3153  * hotplugged processors.
3154  *
3155  * zoneinfo_show() and maybe other functions do
3156  * not check if the processor is online before following the pageset pointer.
3157  * Other parts of the kernel may not check if the zone is available.
3158  */
3159 static void setup_pageset(struct per_cpu_pageset *p, unsigned long batch);
3160 static DEFINE_PER_CPU(struct per_cpu_pageset, boot_pageset);
3161 static void setup_zone_pageset(struct zone *zone);
3162
3163 /*
3164  * Global mutex to protect against size modification of zonelists
3165  * as well as to serialize pageset setup for the new populated zone.
3166  */
3167 DEFINE_MUTEX(zonelists_mutex);
3168
3169 /* return values int ....just for stop_machine() */
3170 static __init_refok int __build_all_zonelists(void *data)
3171 {
3172         int nid;
3173         int cpu;
3174
3175 #ifdef CONFIG_NUMA
3176         memset(node_load, 0, sizeof(node_load));
3177 #endif
3178         for_each_online_node(nid) {
3179                 pg_data_t *pgdat = NODE_DATA(nid);
3180
3181                 build_zonelists(pgdat);
3182                 build_zonelist_cache(pgdat);
3183         }
3184
3185         /*
3186          * Initialize the boot_pagesets that are going to be used
3187          * for bootstrapping processors. The real pagesets for
3188          * each zone will be allocated later when the per cpu
3189          * allocator is available.
3190          *
3191          * boot_pagesets are used also for bootstrapping offline
3192          * cpus if the system is already booted because the pagesets
3193          * are needed to initialize allocators on a specific cpu too.
3194          * F.e. the percpu allocator needs the page allocator which
3195          * needs the percpu allocator in order to allocate its pagesets
3196          * (a chicken-egg dilemma).
3197          */
3198         for_each_possible_cpu(cpu) {
3199                 setup_pageset(&per_cpu(boot_pageset, cpu), 0);
3200
3201 #ifdef CONFIG_HAVE_MEMORYLESS_NODES
3202                 /*
3203                  * We now know the "local memory node" for each node--
3204                  * i.e., the node of the first zone in the generic zonelist.
3205                  * Set up numa_mem percpu variable for on-line cpus.  During
3206                  * boot, only the boot cpu should be on-line;  we'll init the
3207                  * secondary cpus' numa_mem as they come on-line.  During
3208                  * node/memory hotplug, we'll fixup all on-line cpus.
3209                  */
3210                 if (cpu_online(cpu))
3211                         set_cpu_numa_mem(cpu, local_memory_node(cpu_to_node(cpu)));
3212 #endif
3213         }
3214
3215         return 0;
3216 }
3217
3218 /*
3219  * Called with zonelists_mutex held always
3220  * unless system_state == SYSTEM_BOOTING.
3221  */
3222 void __ref build_all_zonelists(void *data)
3223 {
3224         set_zonelist_order();
3225
3226         if (system_state == SYSTEM_BOOTING) {
3227                 __build_all_zonelists(NULL);
3228                 mminit_verify_zonelist();
3229                 cpuset_init_current_mems_allowed();
3230         } else {
3231                 /* we have to stop all cpus to guarantee there is no user
3232                    of zonelist */
3233 #ifdef CONFIG_MEMORY_HOTPLUG
3234                 if (data)
3235                         setup_zone_pageset((struct zone *)data);
3236 #endif
3237                 stop_machine(__build_all_zonelists, NULL, NULL);
3238                 /* cpuset refresh routine should be here */
3239         }
3240         vm_total_pages = nr_free_pagecache_pages();
3241         /*
3242          * Disable grouping by mobility if the number of pages in the
3243          * system is too low to allow the mechanism to work. It would be
3244          * more accurate, but expensive to check per-zone. This check is
3245          * made on memory-hotadd so a system can start with mobility
3246          * disabled and enable it later
3247          */
3248         if (vm_total_pages < (pageblock_nr_pages * MIGRATE_TYPES))
3249                 page_group_by_mobility_disabled = 1;
3250         else
3251                 page_group_by_mobility_disabled = 0;
3252
3253         printk("Built %i zonelists in %s order, mobility grouping %s.  "
3254                 "Total pages: %ld\n",
3255                         nr_online_nodes,
3256                         zonelist_order_name[current_zonelist_order],
3257                         page_group_by_mobility_disabled ? "off" : "on",
3258                         vm_total_pages);
3259 #ifdef CONFIG_NUMA
3260         printk("Policy zone: %s\n", zone_names[policy_zone]);
3261 #endif
3262 }
3263
3264 /*
3265  * Helper functions to size the waitqueue hash table.
3266  * Essentially these want to choose hash table sizes sufficiently
3267  * large so that collisions trying to wait on pages are rare.
3268  * But in fact, the number of active page waitqueues on typical
3269  * systems is ridiculously low, less than 200. So this is even
3270  * conservative, even though it seems large.
3271  *
3272  * The constant PAGES_PER_WAITQUEUE specifies the ratio of pages to
3273  * waitqueues, i.e. the size of the waitq table given the number of pages.
3274  */
3275 #define PAGES_PER_WAITQUEUE     256
3276
3277 #ifndef CONFIG_MEMORY_HOTPLUG
3278 static inline unsigned long wait_table_hash_nr_entries(unsigned long pages)
3279 {
3280         unsigned long size = 1;
3281
3282         pages /= PAGES_PER_WAITQUEUE;
3283
3284         while (size < pages)
3285                 size <<= 1;
3286
3287         /*
3288          * Once we have dozens or even hundreds of threads sleeping
3289          * on IO we've got bigger problems than wait queue collision.
3290          * Limit the size of the wait table to a reasonable size.
3291          */
3292         size = min(size, 4096UL);
3293
3294         return max(size, 4UL);
3295 }
3296 #else
3297 /*
3298  * A zone's size might be changed by hot-add, so it is not possible to determine
3299  * a suitable size for its wait_table.  So we use the maximum size now.
3300  *
3301  * The max wait table size = 4096 x sizeof(wait_queue_head_t).   ie:
3302  *
3303  *    i386 (preemption config)    : 4096 x 16 = 64Kbyte.
3304  *    ia64, x86-64 (no preemption): 4096 x 20 = 80Kbyte.
3305  *    ia64, x86-64 (preemption)   : 4096 x 24 = 96Kbyte.
3306  *
3307  * The maximum entries are prepared when a zone's memory is (512K + 256) pages
3308  * or more by the traditional way. (See above).  It equals:
3309  *
3310  *    i386, x86-64, powerpc(4K page size) : =  ( 2G + 1M)byte.
3311  *    ia64(16K page size)                 : =  ( 8G + 4M)byte.
3312  *    powerpc (64K page size)             : =  (32G +16M)byte.
3313  */
3314 static inline unsigned long wait_table_hash_nr_entries(unsigned long pages)
3315 {
3316         return 4096UL;
3317 }
3318 #endif
3319
3320 /*
3321  * This is an integer logarithm so that shifts can be used later
3322  * to extract the more random high bits from the multiplicative
3323  * hash function before the remainder is taken.
3324  */
3325 static inline unsigned long wait_table_bits(unsigned long size)
3326 {
3327         return ffz(~size);
3328 }
3329
3330 #define LONG_ALIGN(x) (((x)+(sizeof(long))-1)&~((sizeof(long))-1))
3331
3332 /*
3333  * Check if a pageblock contains reserved pages
3334  */
3335 static int pageblock_is_reserved(unsigned long start_pfn, unsigned long end_pfn)
3336 {
3337         unsigned long pfn;
3338
3339         for (pfn = start_pfn; pfn < end_pfn; pfn++) {
3340                 if (!pfn_valid_within(pfn) || PageReserved(pfn_to_page(pfn)))
3341                         return 1;
3342         }
3343         return 0;
3344 }
3345
3346 /*
3347  * Mark a number of pageblocks as MIGRATE_RESERVE. The number
3348  * of blocks reserved is based on min_wmark_pages(zone). The memory within
3349  * the reserve will tend to store contiguous free pages. Setting min_free_kbytes
3350  * higher will lead to a bigger reserve which will get freed as contiguous
3351  * blocks as reclaim kicks in
3352  */
3353 static void setup_zone_migrate_reserve(struct zone *zone)
3354 {
3355         unsigned long start_pfn, pfn, end_pfn, block_end_pfn;
3356         struct page *page;
3357         unsigned long block_migratetype;
3358         int reserve;
3359
3360         /* Get the start pfn, end pfn and the number of blocks to reserve */
3361         start_pfn = zone->zone_start_pfn;
3362         end_pfn = start_pfn + zone->spanned_pages;
3363         reserve = roundup(min_wmark_pages(zone), pageblock_nr_pages) >>
3364                                                         pageblock_order;
3365
3366         /*
3367          * Reserve blocks are generally in place to help high-order atomic
3368          * allocations that are short-lived. A min_free_kbytes value that
3369          * would result in more than 2 reserve blocks for atomic allocations
3370          * is assumed to be in place to help anti-fragmentation for the
3371          * future allocation of hugepages at runtime.
3372          */
3373         reserve = min(2, reserve);
3374
3375         for (pfn = start_pfn; pfn < end_pfn; pfn += pageblock_nr_pages) {
3376                 if (!pfn_valid(pfn))
3377                         continue;
3378                 page = pfn_to_page(pfn);
3379
3380                 /* Watch out for overlapping nodes */
3381                 if (page_to_nid(page) != zone_to_nid(zone))
3382                         continue;
3383
3384                 /* Blocks with reserved pages will never free, skip them. */
3385                 block_end_pfn = min(pfn + pageblock_nr_pages, end_pfn);
3386                 if (pageblock_is_reserved(pfn, block_end_pfn))
3387                         continue;
3388
3389                 block_migratetype = get_pageblock_migratetype(page);
3390
3391                 /* If this block is reserved, account for it */
3392                 if (reserve > 0 && block_migratetype == MIGRATE_RESERVE) {
3393                         reserve--;
3394                         continue;
3395                 }
3396
3397                 /* Suitable for reserving if this block is movable */
3398                 if (reserve > 0 && block_migratetype == MIGRATE_MOVABLE) {
3399                         set_pageblock_migratetype(page, MIGRATE_RESERVE);
3400                         move_freepages_block(zone, page, MIGRATE_RESERVE);
3401                         reserve--;
3402                         continue;
3403                 }
3404
3405                 /*
3406                  * If the reserve is met and this is a previous reserved block,
3407                  * take it back
3408                  */
3409                 if (block_migratetype == MIGRATE_RESERVE) {
3410                         set_pageblock_migratetype(page, MIGRATE_MOVABLE);
3411                         move_freepages_block(zone, page, MIGRATE_MOVABLE);
3412                 }
3413         }
3414 }
3415
3416 /*
3417  * Initially all pages are reserved - free ones are freed
3418  * up by free_all_bootmem() once the early boot process is
3419  * done. Non-atomic initialization, single-pass.
3420  */
3421 void __meminit memmap_init_zone(unsigned long size, int nid, unsigned long zone,
3422                 unsigned long start_pfn, enum memmap_context context)
3423 {
3424         struct page *page;
3425         unsigned long end_pfn = start_pfn + size;
3426         unsigned long pfn;
3427         struct zone *z;
3428
3429         if (highest_memmap_pfn < end_pfn - 1)
3430                 highest_memmap_pfn = end_pfn - 1;
3431
3432         z = &NODE_DATA(nid)->node_zones[zone];
3433         for (pfn = start_pfn; pfn < end_pfn; pfn++) {
3434                 /*
3435                  * There can be holes in boot-time mem_map[]s
3436                  * handed to this function.  They do not
3437                  * exist on hotplugged memory.
3438                  */
3439                 if (context == MEMMAP_EARLY) {
3440                         if (!early_pfn_valid(pfn))
3441                                 continue;
3442                         if (!early_pfn_in_nid(pfn, nid))
3443                                 continue;
3444                 }
3445                 page = pfn_to_page(pfn);
3446                 set_page_links(page, zone, nid, pfn);
3447                 mminit_verify_page_links(page, zone, nid, pfn);
3448                 init_page_count(page);
3449                 reset_page_mapcount(page);
3450                 SetPageReserved(page);
3451                 /*
3452                  * Mark the block movable so that blocks are reserved for
3453                  * movable at startup. This will force kernel allocations
3454                  * to reserve their blocks rather than leaking throughout
3455                  * the address space during boot when many long-lived
3456                  * kernel allocations are made. Later some blocks near
3457                  * the start are marked MIGRATE_RESERVE by
3458                  * setup_zone_migrate_reserve()
3459                  *
3460                  * bitmap is created for zone's valid pfn range. but memmap
3461                  * can be created for invalid pages (for alignment)
3462                  * check here not to call set_pageblock_migratetype() against
3463                  * pfn out of zone.
3464                  */
3465                 if ((z->zone_start_pfn <= pfn)
3466                     && (pfn < z->zone_start_pfn + z->spanned_pages)
3467                     && !(pfn & (pageblock_nr_pages - 1)))
3468                         set_pageblock_migratetype(page, MIGRATE_MOVABLE);
3469
3470                 INIT_LIST_HEAD(&page->lru);
3471 #ifdef WANT_PAGE_VIRTUAL
3472                 /* The shift won't overflow because ZONE_NORMAL is below 4G. */
3473                 if (!is_highmem_idx(zone))
3474                         set_page_address(page, __va(pfn << PAGE_SHIFT));
3475 #endif
3476         }
3477 }
3478
3479 static void __meminit zone_init_free_lists(struct zone *zone)
3480 {
3481         int order, t;
3482         for_each_migratetype_order(order, t) {
3483                 INIT_LIST_HEAD(&zone->free_area[order].free_list[t]);
3484                 zone->free_area[order].nr_free = 0;
3485         }
3486 }
3487
3488 #ifndef __HAVE_ARCH_MEMMAP_INIT
3489 #define memmap_init(size, nid, zone, start_pfn) \
3490         memmap_init_zone((size), (nid), (zone), (start_pfn), MEMMAP_EARLY)
3491 #endif
3492
3493 static int zone_batchsize(struct zone *zone)
3494 {
3495 #ifdef CONFIG_MMU
3496         int batch;
3497
3498         /*
3499          * The per-cpu-pages pools are set to around 1000th of the
3500          * size of the zone.  But no more than 1/2 of a meg.
3501          *
3502          * OK, so we don't know how big the cache is.  So guess.
3503          */
3504         batch = zone->present_pages / 1024;
3505         if (batch * PAGE_SIZE > 512 * 1024)
3506                 batch = (512 * 1024) / PAGE_SIZE;
3507         batch /= 4;             /* We effectively *= 4 below */
3508         if (batch < 1)
3509                 batch = 1;
3510
3511         /*
3512          * Clamp the batch to a 2^n - 1 value. Having a power
3513          * of 2 value was found to be more likely to have
3514          * suboptimal cache aliasing properties in some cases.
3515          *
3516          * For example if 2 tasks are alternately allocating
3517          * batches of pages, one task can end up with a lot
3518          * of pages of one half of the possible page colors
3519          * and the other with pages of the other colors.
3520          */
3521         batch = rounddown_pow_of_two(batch + batch/2) - 1;
3522
3523         return batch;
3524
3525 #else
3526         /* The deferral and batching of frees should be suppressed under NOMMU
3527          * conditions.
3528          *
3529          * The problem is that NOMMU needs to be able to allocate large chunks
3530          * of contiguous memory as there's no hardware page translation to
3531          * assemble apparent contiguous memory from discontiguous pages.
3532          *
3533          * Queueing large contiguous runs of pages for batching, however,
3534          * causes the pages to actually be freed in smaller chunks.  As there
3535          * can be a significant delay between the individual batches being
3536          * recycled, this leads to the once large chunks of space being
3537          * fragmented and becoming unavailable for high-order allocations.
3538          */
3539         return 0;
3540 #endif
3541 }
3542
3543 static void setup_pageset(struct per_cpu_pageset *p, unsigned long batch)
3544 {
3545         struct per_cpu_pages *pcp;
3546         int migratetype;
3547
3548         memset(p, 0, sizeof(*p));
3549
3550         pcp = &p->pcp;
3551         pcp->count = 0;
3552         pcp->high = 6 * batch;
3553         pcp->batch = max(1UL, 1 * batch);
3554         for (migratetype = 0; migratetype < MIGRATE_PCPTYPES; migratetype++)
3555                 INIT_LIST_HEAD(&pcp->lists[migratetype]);
3556 }
3557
3558 /*
3559  * setup_pagelist_highmark() sets the high water mark for hot per_cpu_pagelist
3560  * to the value high for the pageset p.
3561  */
3562
3563 static void setup_pagelist_highmark(struct per_cpu_pageset *p,
3564                                 unsigned long high)
3565 {
3566         struct per_cpu_pages *pcp;
3567
3568         pcp = &p->pcp;
3569         pcp->high = high;
3570         pcp->batch = max(1UL, high/4);
3571         if ((high/4) > (PAGE_SHIFT * 8))
3572                 pcp->batch = PAGE_SHIFT * 8;
3573 }
3574
3575 static void setup_zone_pageset(struct zone *zone)
3576 {
3577         int cpu;
3578
3579         zone->pageset = alloc_percpu(struct per_cpu_pageset);
3580
3581         for_each_possible_cpu(cpu) {
3582                 struct per_cpu_pageset *pcp = per_cpu_ptr(zone->pageset, cpu);
3583
3584                 setup_pageset(pcp, zone_batchsize(zone));
3585
3586                 if (percpu_pagelist_fraction)
3587                         setup_pagelist_highmark(pcp,
3588                                 (zone->present_pages /
3589                                         percpu_pagelist_fraction));
3590         }
3591 }
3592
3593 /*
3594  * Allocate per cpu pagesets and initialize them.
3595  * Before this call only boot pagesets were available.
3596  */
3597 void __init setup_per_cpu_pageset(void)
3598 {
3599         struct zone *zone;
3600
3601         for_each_populated_zone(zone)
3602                 setup_zone_pageset(zone);
3603 }
3604
3605 static noinline __init_refok
3606 int zone_wait_table_init(struct zone *zone, unsigned long zone_size_pages)
3607 {
3608         int i;
3609         struct pglist_data *pgdat = zone->zone_pgdat;
3610         size_t alloc_size;
3611
3612         /*
3613          * The per-page waitqueue mechanism uses hashed waitqueues
3614          * per zone.
3615          */
3616         zone->wait_table_hash_nr_entries =
3617                  wait_table_hash_nr_entries(zone_size_pages);
3618         zone->wait_table_bits =
3619                 wait_table_bits(zone->wait_table_hash_nr_entries);
3620         alloc_size = zone->wait_table_hash_nr_entries
3621                                         * sizeof(wait_queue_head_t);
3622
3623         if (!slab_is_available()) {
3624                 zone->wait_table = (wait_queue_head_t *)
3625                         alloc_bootmem_node_nopanic(pgdat, alloc_size);
3626         } else {
3627                 /*
3628                  * This case means that a zone whose size was 0 gets new memory
3629                  * via memory hot-add.
3630                  * But it may be the case that a new node was hot-added.  In
3631                  * this case vmalloc() will not be able to use this new node's
3632                  * memory - this wait_table must be initialized to use this new
3633                  * node itself as well.
3634                  * To use this new node's memory, further consideration will be
3635                  * necessary.
3636                  */
3637                 zone->wait_table = vmalloc(alloc_size);
3638         }
3639         if (!zone->wait_table)
3640                 return -ENOMEM;
3641
3642         for(i = 0; i < zone->wait_table_hash_nr_entries; ++i)
3643                 init_waitqueue_head(zone->wait_table + i);
3644
3645         return 0;
3646 }
3647
3648 static int __zone_pcp_update(void *data)
3649 {
3650         struct zone *zone = data;
3651         int cpu;
3652         unsigned long batch = zone_batchsize(zone), flags;
3653
3654         for_each_possible_cpu(cpu) {
3655                 struct per_cpu_pageset *pset;
3656                 struct per_cpu_pages *pcp;
3657
3658                 pset = per_cpu_ptr(zone->pageset, cpu);
3659                 pcp = &pset->pcp;
3660
3661                 local_irq_save(flags);
3662                 free_pcppages_bulk(zone, pcp->count, pcp);
3663                 setup_pageset(pset, batch);
3664                 local_irq_restore(flags);
3665         }
3666         return 0;
3667 }
3668
3669 void zone_pcp_update(struct zone *zone)
3670 {
3671         stop_machine(__zone_pcp_update, zone, NULL);
3672 }
3673
3674 static __meminit void zone_pcp_init(struct zone *zone)
3675 {
3676         /*
3677          * per cpu subsystem is not up at this point. The following code
3678          * relies on the ability of the linker to provide the
3679          * offset of a (static) per cpu variable into the per cpu area.
3680          */
3681         zone->pageset = &boot_pageset;
3682
3683         if (zone->present_pages)
3684                 printk(KERN_DEBUG "  %s zone: %lu pages, LIFO batch:%u\n",
3685                         zone->name, zone->present_pages,
3686                                          zone_batchsize(zone));
3687 }
3688
3689 __meminit int init_currently_empty_zone(struct zone *zone,
3690                                         unsigned long zone_start_pfn,
3691                                         unsigned long size,
3692                                         enum memmap_context context)
3693 {
3694         struct pglist_data *pgdat = zone->zone_pgdat;
3695         int ret;
3696         ret = zone_wait_table_init(zone, size);
3697         if (ret)
3698                 return ret;
3699         pgdat->nr_zones = zone_idx(zone) + 1;
3700
3701         zone->zone_start_pfn = zone_start_pfn;
3702
3703         mminit_dprintk(MMINIT_TRACE, "memmap_init",
3704                         "Initialising map node %d zone %lu pfns %lu -> %lu\n",
3705                         pgdat->node_id,
3706                         (unsigned long)zone_idx(zone),
3707                         zone_start_pfn, (zone_start_pfn + size));
3708
3709         zone_init_free_lists(zone);
3710
3711         return 0;
3712 }
3713
3714 #ifdef CONFIG_ARCH_POPULATES_NODE_MAP
3715 /*
3716  * Basic iterator support. Return the first range of PFNs for a node
3717  * Note: nid == MAX_NUMNODES returns first region regardless of node
3718  */
3719 static int __meminit first_active_region_index_in_nid(int nid)
3720 {
3721         int i;
3722
3723         for (i = 0; i < nr_nodemap_entries; i++)
3724                 if (nid == MAX_NUMNODES || early_node_map[i].nid == nid)
3725                         return i;
3726
3727         return -1;
3728 }
3729
3730 /*
3731  * Basic iterator support. Return the next active range of PFNs for a node
3732  * Note: nid == MAX_NUMNODES returns next region regardless of node
3733  */
3734 static int __meminit next_active_region_index_in_nid(int index, int nid)
3735 {
3736         for (index = index + 1; index < nr_nodemap_entries; index++)
3737                 if (nid == MAX_NUMNODES || early_node_map[index].nid == nid)
3738                         return index;
3739
3740         return -1;
3741 }
3742
3743 #ifndef CONFIG_HAVE_ARCH_EARLY_PFN_TO_NID
3744 /*
3745  * Required by SPARSEMEM. Given a PFN, return what node the PFN is on.
3746  * Architectures may implement their own version but if add_active_range()
3747  * was used and there are no special requirements, this is a convenient
3748  * alternative
3749  */
3750 int __meminit __early_pfn_to_nid(unsigned long pfn)
3751 {
3752         int i;
3753
3754         for (i = 0; i < nr_nodemap_entries; i++) {
3755                 unsigned long start_pfn = early_node_map[i].start_pfn;
3756                 unsigned long end_pfn = early_node_map[i].end_pfn;
3757
3758                 if (start_pfn <= pfn && pfn < end_pfn)
3759                         return early_node_map[i].nid;
3760         }
3761         /* This is a memory hole */
3762         return -1;
3763 }
3764 #endif /* CONFIG_HAVE_ARCH_EARLY_PFN_TO_NID */
3765
3766 int __meminit early_pfn_to_nid(unsigned long pfn)
3767 {
3768         int nid;
3769
3770         nid = __early_pfn_to_nid(pfn);
3771         if (nid >= 0)
3772                 return nid;
3773         /* just returns 0 */
3774         return 0;
3775 }
3776
3777 #ifdef CONFIG_NODES_SPAN_OTHER_NODES
3778 bool __meminit early_pfn_in_nid(unsigned long pfn, int node)
3779 {
3780         int nid;
3781
3782         nid = __early_pfn_to_nid(pfn);
3783         if (nid >= 0 && nid != node)
3784                 return false;
3785         return true;
3786 }
3787 #endif
3788
3789 /* Basic iterator support to walk early_node_map[] */
3790 #define for_each_active_range_index_in_nid(i, nid) \
3791         for (i = first_active_region_index_in_nid(nid); i != -1; \
3792                                 i = next_active_region_index_in_nid(i, nid))
3793
3794 /**
3795  * free_bootmem_with_active_regions - Call free_bootmem_node for each active range
3796  * @nid: The node to free memory on. If MAX_NUMNODES, all nodes are freed.
3797  * @max_low_pfn: The highest PFN that will be passed to free_bootmem_node
3798  *
3799  * If an architecture guarantees that all ranges registered with
3800  * add_active_ranges() contain no holes and may be freed, this
3801  * this function may be used instead of calling free_bootmem() manually.
3802  */
3803 void __init free_bootmem_with_active_regions(int nid,
3804                                                 unsigned long max_low_pfn)
3805 {
3806         int i;
3807
3808         for_each_active_range_index_in_nid(i, nid) {
3809                 unsigned long size_pages = 0;
3810                 unsigned long end_pfn = early_node_map[i].end_pfn;
3811
3812                 if (early_node_map[i].start_pfn >= max_low_pfn)
3813                         continue;
3814
3815                 if (end_pfn > max_low_pfn)
3816                         end_pfn = max_low_pfn;
3817
3818                 size_pages = end_pfn - early_node_map[i].start_pfn;
3819                 free_bootmem_node(NODE_DATA(early_node_map[i].nid),
3820                                 PFN_PHYS(early_node_map[i].start_pfn),
3821                                 size_pages << PAGE_SHIFT);
3822         }
3823 }
3824
3825 #ifdef CONFIG_HAVE_MEMBLOCK
3826 /*
3827  * Basic iterator support. Return the last range of PFNs for a node
3828  * Note: nid == MAX_NUMNODES returns last region regardless of node
3829  */
3830 static int __meminit last_active_region_index_in_nid(int nid)
3831 {
3832         int i;
3833
3834         for (i = nr_nodemap_entries - 1; i >= 0; i--)
3835                 if (nid == MAX_NUMNODES || early_node_map[i].nid == nid)
3836                         return i;
3837
3838         return -1;
3839 }
3840
3841 /*
3842  * Basic iterator support. Return the previous active range of PFNs for a node
3843  * Note: nid == MAX_NUMNODES returns next region regardless of node
3844  */
3845 static int __meminit previous_active_region_index_in_nid(int index, int nid)
3846 {
3847         for (index = index - 1; index >= 0; index--)
3848                 if (nid == MAX_NUMNODES || early_node_map[index].nid == nid)
3849                         return index;
3850
3851         return -1;
3852 }
3853
3854 #define for_each_active_range_index_in_nid_reverse(i, nid) \
3855         for (i = last_active_region_index_in_nid(nid); i != -1; \
3856                                 i = previous_active_region_index_in_nid(i, nid))
3857
3858 u64 __init find_memory_core_early(int nid, u64 size, u64 align,
3859                                         u64 goal, u64 limit)
3860 {
3861         int i;
3862
3863         /* Need to go over early_node_map to find out good range for node */
3864         for_each_active_range_index_in_nid_reverse(i, nid) {
3865                 u64 addr;
3866                 u64 ei_start, ei_last;
3867                 u64 final_start, final_end;
3868
3869                 ei_last = early_node_map[i].end_pfn;
3870                 ei_last <<= PAGE_SHIFT;
3871                 ei_start = early_node_map[i].start_pfn;
3872                 ei_start <<= PAGE_SHIFT;
3873
3874                 final_start = max(ei_start, goal);
3875                 final_end = min(ei_last, limit);
3876
3877                 if (final_start >= final_end)
3878                         continue;
3879
3880                 addr = memblock_find_in_range(final_start, final_end, size, align);
3881
3882                 if (addr == MEMBLOCK_ERROR)
3883                         continue;
3884
3885                 return addr;
3886         }
3887
3888         return MEMBLOCK_ERROR;
3889 }
3890 #endif
3891
3892 int __init add_from_early_node_map(struct range *range, int az,
3893                                    int nr_range, int nid)
3894 {
3895         int i;
3896         u64 start, end;
3897
3898         /* need to go over early_node_map to find out good range for node */
3899         for_each_active_range_index_in_nid(i, nid) {
3900                 start = early_node_map[i].start_pfn;
3901                 end = early_node_map[i].end_pfn;
3902                 nr_range = add_range(range, az, nr_range, start, end);
3903         }
3904         return nr_range;
3905 }
3906
3907 void __init work_with_active_regions(int nid, work_fn_t work_fn, void *data)
3908 {
3909         int i;
3910         int ret;
3911
3912         for_each_active_range_index_in_nid(i, nid) {
3913                 ret = work_fn(early_node_map[i].start_pfn,
3914                               early_node_map[i].end_pfn, data);
3915                 if (ret)
3916                         break;
3917         }
3918 }
3919 /**
3920  * sparse_memory_present_with_active_regions - Call memory_present for each active range
3921  * @nid: The node to call memory_present for. If MAX_NUMNODES, all nodes will be used.
3922  *
3923  * If an architecture guarantees that all ranges registered with
3924  * add_active_ranges() contain no holes and may be freed, this
3925  * function may be used instead of calling memory_present() manually.
3926  */
3927 void __init sparse_memory_present_with_active_regions(int nid)
3928 {
3929         int i;
3930
3931         for_each_active_range_index_in_nid(i, nid)
3932                 memory_present(early_node_map[i].nid,
3933                                 early_node_map[i].start_pfn,
3934                                 early_node_map[i].end_pfn);
3935 }
3936
3937 /**
3938  * get_pfn_range_for_nid - Return the start and end page frames for a node
3939  * @nid: The nid to return the range for. If MAX_NUMNODES, the min and max PFN are returned.
3940  * @start_pfn: Passed by reference. On return, it will have the node start_pfn.
3941  * @end_pfn: Passed by reference. On return, it will have the node end_pfn.
3942  *
3943  * It returns the start and end page frame of a node based on information
3944  * provided by an arch calling add_active_range(). If called for a node
3945  * with no available memory, a warning is printed and the start and end
3946  * PFNs will be 0.
3947  */
3948 void __meminit get_pfn_range_for_nid(unsigned int nid,
3949                         unsigned long *start_pfn, unsigned long *end_pfn)
3950 {
3951         int i;
3952         *start_pfn = -1UL;
3953         *end_pfn = 0;
3954
3955         for_each_active_range_index_in_nid(i, nid) {
3956                 *start_pfn = min(*start_pfn, early_node_map[i].start_pfn);
3957                 *end_pfn = max(*end_pfn, early_node_map[i].end_pfn);
3958         }
3959
3960         if (*start_pfn == -1UL)
3961                 *start_pfn = 0;
3962 }
3963
3964 /*
3965  * This finds a zone that can be used for ZONE_MOVABLE pages. The
3966  * assumption is made that zones within a node are ordered in monotonic
3967  * increasing memory addresses so that the "highest" populated zone is used
3968  */
3969 static void __init find_usable_zone_for_movable(void)
3970 {
3971         int zone_index;
3972         for (zone_index = MAX_NR_ZONES - 1; zone_index >= 0; zone_index--) {
3973                 if (zone_index == ZONE_MOVABLE)
3974                         continue;
3975
3976                 if (arch_zone_highest_possible_pfn[zone_index] >
3977                                 arch_zone_lowest_possible_pfn[zone_index])
3978                         break;
3979         }
3980
3981         VM_BUG_ON(zone_index == -1);
3982         movable_zone = zone_index;
3983 }
3984
3985 /*
3986  * The zone ranges provided by the architecture do not include ZONE_MOVABLE
3987  * because it is sized independent of architecture. Unlike the other zones,
3988  * the starting point for ZONE_MOVABLE is not fixed. It may be different
3989  * in each node depending on the size of each node and how evenly kernelcore
3990  * is distributed. This helper function adjusts the zone ranges
3991  * provided by the architecture for a given node by using the end of the
3992  * highest usable zone for ZONE_MOVABLE. This preserves the assumption that
3993  * zones within a node are in order of monotonic increases memory addresses
3994  */
3995 static void __meminit adjust_zone_range_for_zone_movable(int nid,
3996                                         unsigned long zone_type,
3997                                         unsigned long node_start_pfn,
3998                                         unsigned long node_end_pfn,
3999                                         unsigned long *zone_start_pfn,
4000                                         unsigned long *zone_end_pfn)
4001 {
4002         /* Only adjust if ZONE_MOVABLE is on this node */
4003         if (zone_movable_pfn[nid]) {
4004                 /* Size ZONE_MOVABLE */
4005                 if (zone_type == ZONE_MOVABLE) {
4006                         *zone_start_pfn = zone_movable_pfn[nid];
4007                         *zone_end_pfn = min(node_end_pfn,
4008                                 arch_zone_highest_possible_pfn[movable_zone]);
4009
4010                 /* Adjust for ZONE_MOVABLE starting within this range */
4011                 } else if (*zone_start_pfn < zone_movable_pfn[nid] &&
4012                                 *zone_end_pfn > zone_movable_pfn[nid]) {
4013                         *zone_end_pfn = zone_movable_pfn[nid];
4014
4015                 /* Check if this whole range is within ZONE_MOVABLE */
4016                 } else if (*zone_start_pfn >= zone_movable_pfn[nid])
4017                         *zone_start_pfn = *zone_end_pfn;
4018         }
4019 }
4020
4021 /*
4022  * Return the number of pages a zone spans in a node, including holes
4023  * present_pages = zone_spanned_pages_in_node() - zone_absent_pages_in_node()
4024  */
4025 static unsigned long __meminit zone_spanned_pages_in_node(int nid,
4026                                         unsigned long zone_type,
4027                                         unsigned long *ignored)
4028 {
4029         unsigned long node_start_pfn, node_end_pfn;
4030         unsigned long zone_start_pfn, zone_end_pfn;
4031
4032         /* Get the start and end of the node and zone */
4033         get_pfn_range_for_nid(nid, &node_start_pfn, &node_end_pfn);
4034         zone_start_pfn = arch_zone_lowest_possible_pfn[zone_type];
4035         zone_end_pfn = arch_zone_highest_possible_pfn[zone_type];
4036         adjust_zone_range_for_zone_movable(nid, zone_type,
4037                                 node_start_pfn, node_end_pfn,
4038                                 &zone_start_pfn, &zone_end_pfn);
4039
4040         /* Check that this node has pages within the zone's required range */
4041         if (zone_end_pfn < node_start_pfn || zone_start_pfn > node_end_pfn)
4042                 return 0;
4043
4044         /* Move the zone boundaries inside the node if necessary */
4045         zone_end_pfn = min(zone_end_pfn, node_end_pfn);
4046         zone_start_pfn = max(zone_start_pfn, node_start_pfn);
4047
4048         /* Return the spanned pages */
4049         return zone_end_pfn - zone_start_pfn;
4050 }
4051
4052 /*
4053  * Return the number of holes in a range on a node. If nid is MAX_NUMNODES,
4054  * then all holes in the requested range will be accounted for.
4055  */
4056 unsigned long __meminit __absent_pages_in_range(int nid,
4057                                 unsigned long range_start_pfn,
4058                                 unsigned long range_end_pfn)
4059 {
4060         int i = 0;
4061         unsigned long prev_end_pfn = 0, hole_pages = 0;
4062         unsigned long start_pfn;
4063
4064         /* Find the end_pfn of the first active range of pfns in the node */
4065         i = first_active_region_index_in_nid(nid);
4066         if (i == -1)
4067                 return 0;
4068
4069         prev_end_pfn = min(early_node_map[i].start_pfn, range_end_pfn);
4070
4071         /* Account for ranges before physical memory on this node */
4072         if (early_node_map[i].start_pfn > range_start_pfn)
4073                 hole_pages = prev_end_pfn - range_start_pfn;
4074
4075         /* Find all holes for the zone within the node */
4076         for (; i != -1; i = next_active_region_index_in_nid(i, nid)) {
4077
4078                 /* No need to continue if prev_end_pfn is outside the zone */
4079                 if (prev_end_pfn >= range_end_pfn)
4080                         break;
4081
4082                 /* Make sure the end of the zone is not within the hole */
4083                 start_pfn = min(early_node_map[i].start_pfn, range_end_pfn);
4084                 prev_end_pfn = max(prev_end_pfn, range_start_pfn);
4085
4086                 /* Update the hole size cound and move on */
4087                 if (start_pfn > range_start_pfn) {
4088                         BUG_ON(prev_end_pfn > start_pfn);
4089                         hole_pages += start_pfn - prev_end_pfn;
4090                 }
4091                 prev_end_pfn = early_node_map[i].end_pfn;
4092         }
4093
4094         /* Account for ranges past physical memory on this node */
4095         if (range_end_pfn > prev_end_pfn)
4096                 hole_pages += range_end_pfn -
4097                                 max(range_start_pfn, prev_end_pfn);
4098
4099         return hole_pages;
4100 }
4101
4102 /**
4103  * absent_pages_in_range - Return number of page frames in holes within a range
4104  * @start_pfn: The start PFN to start searching for holes
4105  * @end_pfn: The end PFN to stop searching for holes
4106  *
4107  * It returns the number of pages frames in memory holes within a range.
4108  */
4109 unsigned long __init absent_pages_in_range(unsigned long start_pfn,
4110                                                         unsigned long end_pfn)
4111 {
4112         return __absent_pages_in_range(MAX_NUMNODES, start_pfn, end_pfn);
4113 }
4114
4115 /* Return the number of page frames in holes in a zone on a node */
4116 static unsigned long __meminit zone_absent_pages_in_node(int nid,
4117                                         unsigned long zone_type,
4118                                         unsigned long *ignored)
4119 {
4120         unsigned long node_start_pfn, node_end_pfn;
4121         unsigned long zone_start_pfn, zone_end_pfn;
4122
4123         get_pfn_range_for_nid(nid, &node_start_pfn, &node_end_pfn);
4124         zone_start_pfn = max(arch_zone_lowest_possible_pfn[zone_type],
4125                                                         node_start_pfn);
4126         zone_end_pfn = min(arch_zone_highest_possible_pfn[zone_type],
4127                                                         node_end_pfn);
4128
4129         adjust_zone_range_for_zone_movable(nid, zone_type,
4130                         node_start_pfn, node_end_pfn,
4131                         &zone_start_pfn, &zone_end_pfn);
4132         return __absent_pages_in_range(nid, zone_start_pfn, zone_end_pfn);
4133 }
4134
4135 #else
4136 static inline unsigned long __meminit zone_spanned_pages_in_node(int nid,
4137                                         unsigned long zone_type,
4138                                         unsigned long *zones_size)
4139 {
4140         return zones_size[zone_type];
4141 }
4142
4143 static inline unsigned long __meminit zone_absent_pages_in_node(int nid,
4144                                                 unsigned long zone_type,
4145                                                 unsigned long *zholes_size)
4146 {
4147         if (!zholes_size)
4148                 return 0;
4149
4150         return zholes_size[zone_type];
4151 }
4152
4153 #endif
4154
4155 static void __meminit calculate_node_totalpages(struct pglist_data *pgdat,
4156                 unsigned long *zones_size, unsigned long *zholes_size)
4157 {
4158         unsigned long realtotalpages, totalpages = 0;
4159         enum zone_type i;
4160
4161         for (i = 0; i < MAX_NR_ZONES; i++)
4162                 totalpages += zone_spanned_pages_in_node(pgdat->node_id, i,
4163                                                                 zones_size);
4164         pgdat->node_spanned_pages = totalpages;
4165
4166         realtotalpages = totalpages;
4167         for (i = 0; i < MAX_NR_ZONES; i++)
4168                 realtotalpages -=
4169                         zone_absent_pages_in_node(pgdat->node_id, i,
4170                                                                 zholes_size);
4171         pgdat->node_present_pages = realtotalpages;
4172         printk(KERN_DEBUG "On node %d totalpages: %lu\n", pgdat->node_id,
4173                                                         realtotalpages);
4174 }
4175
4176 #ifndef CONFIG_SPARSEMEM
4177 /*
4178  * Calculate the size of the zone->blockflags rounded to an unsigned long
4179  * Start by making sure zonesize is a multiple of pageblock_order by rounding
4180  * up. Then use 1 NR_PAGEBLOCK_BITS worth of bits per pageblock, finally
4181  * round what is now in bits to nearest long in bits, then return it in
4182  * bytes.
4183  */
4184 static unsigned long __init usemap_size(unsigned long zonesize)
4185 {
4186         unsigned long usemapsize;
4187
4188         usemapsize = roundup(zonesize, pageblock_nr_pages);
4189         usemapsize = usemapsize >> pageblock_order;
4190         usemapsize *= NR_PAGEBLOCK_BITS;
4191         usemapsize = roundup(usemapsize, 8 * sizeof(unsigned long));
4192
4193         return usemapsize / 8;
4194 }
4195
4196 static void __init setup_usemap(struct pglist_data *pgdat,
4197                                 struct zone *zone, unsigned long zonesize)
4198 {
4199         unsigned long usemapsize = usemap_size(zonesize);
4200         zone->pageblock_flags = NULL;
4201         if (usemapsize)
4202                 zone->pageblock_flags = alloc_bootmem_node_nopanic(pgdat,
4203                                                                    usemapsize);
4204 }
4205 #else
4206 static inline void setup_usemap(struct pglist_data *pgdat,
4207                                 struct zone *zone, unsigned long zonesize) {}
4208 #endif /* CONFIG_SPARSEMEM */
4209
4210 #ifdef CONFIG_HUGETLB_PAGE_SIZE_VARIABLE
4211
4212 /* Return a sensible default order for the pageblock size. */
4213 static inline int pageblock_default_order(void)
4214 {
4215         if (HPAGE_SHIFT > PAGE_SHIFT)
4216                 return HUGETLB_PAGE_ORDER;
4217
4218         return MAX_ORDER-1;
4219 }
4220
4221 /* Initialise the number of pages represented by NR_PAGEBLOCK_BITS */
4222 static inline void __init set_pageblock_order(unsigned int order)
4223 {
4224         /* Check that pageblock_nr_pages has not already been setup */
4225         if (pageblock_order)
4226                 return;
4227
4228         /*
4229          * Assume the largest contiguous order of interest is a huge page.
4230          * This value may be variable depending on boot parameters on IA64
4231          */
4232         pageblock_order = order;
4233 }
4234 #else /* CONFIG_HUGETLB_PAGE_SIZE_VARIABLE */
4235
4236 /*
4237  * When CONFIG_HUGETLB_PAGE_SIZE_VARIABLE is not set, set_pageblock_order()
4238  * and pageblock_default_order() are unused as pageblock_order is set
4239  * at compile-time. See include/linux/pageblock-flags.h for the values of
4240  * pageblock_order based on the kernel config
4241  */
4242 static inline int pageblock_default_order(unsigned int order)
4243 {
4244         return MAX_ORDER-1;
4245 }
4246 #define set_pageblock_order(x)  do {} while (0)
4247
4248 #endif /* CONFIG_HUGETLB_PAGE_SIZE_VARIABLE */
4249
4250 /*
4251  * Set up the zone data structures:
4252  *   - mark all pages reserved
4253  *   - mark all memory queues empty
4254  *   - clear the memory bitmaps
4255  */
4256 static void __paginginit free_area_init_core(struct pglist_data *pgdat,
4257                 unsigned long *zones_size, unsigned long *zholes_size)
4258 {
4259         enum zone_type j;
4260         int nid = pgdat->node_id;
4261         unsigned long zone_start_pfn = pgdat->node_start_pfn;
4262         int ret;
4263
4264         pgdat_resize_init(pgdat);
4265         pgdat->nr_zones = 0;
4266         init_waitqueue_head(&pgdat->kswapd_wait);
4267         pgdat->kswapd_max_order = 0;
4268         pgdat_page_cgroup_init(pgdat);
4269         
4270         for (j = 0; j < MAX_NR_ZONES; j++) {
4271                 struct zone *zone = pgdat->node_zones + j;
4272                 unsigned long size, realsize, memmap_pages;
4273                 enum lru_list l;
4274
4275                 size = zone_spanned_pages_in_node(nid, j, zones_size);
4276                 realsize = size - zone_absent_pages_in_node(nid, j,
4277                                                                 zholes_size);
4278
4279                 /*
4280                  * Adjust realsize so that it accounts for how much memory
4281                  * is used by this zone for memmap. This affects the watermark
4282                  * and per-cpu initialisations
4283                  */
4284                 memmap_pages =
4285                         PAGE_ALIGN(size * sizeof(struct page)) >> PAGE_SHIFT;
4286                 if (realsize >= memmap_pages) {
4287                         realsize -= memmap_pages;
4288                         if (memmap_pages)
4289                                 printk(KERN_DEBUG
4290                                        "  %s zone: %lu pages used for memmap\n",
4291                                        zone_names[j], memmap_pages);
4292                 } else
4293                         printk(KERN_WARNING
4294                                 "  %s zone: %lu pages exceeds realsize %lu\n",
4295                                 zone_names[j], memmap_pages, realsize);
4296
4297                 /* Account for reserved pages */
4298                 if (j == 0 && realsize > dma_reserve) {
4299                         realsize -= dma_reserve;
4300                         printk(KERN_DEBUG "  %s zone: %lu pages reserved\n",
4301                                         zone_names[0], dma_reserve);
4302                 }
4303
4304                 if (!is_highmem_idx(j))
4305                         nr_kernel_pages += realsize;
4306                 nr_all_pages += realsize;
4307
4308                 zone->spanned_pages = size;
4309                 zone->present_pages = realsize;
4310 #ifdef CONFIG_NUMA
4311                 zone->node = nid;
4312                 zone->min_unmapped_pages = (realsize*sysctl_min_unmapped_ratio)
4313                                                 / 100;
4314                 zone->min_slab_pages = (realsize * sysctl_min_slab_ratio) / 100;
4315 #endif
4316                 zone->name = zone_names[j];
4317                 spin_lock_init(&zone->lock);
4318                 spin_lock_init(&zone->lru_lock);
4319                 zone_seqlock_init(zone);
4320                 zone->zone_pgdat = pgdat;
4321
4322                 zone_pcp_init(zone);
4323                 for_each_lru(l)
4324                         INIT_LIST_HEAD(&zone->lru[l].list);
4325                 zone->reclaim_stat.recent_rotated[0] = 0;
4326                 zone->reclaim_stat.recent_rotated[1] = 0;
4327                 zone->reclaim_stat.recent_scanned[0] = 0;
4328                 zone->reclaim_stat.recent_scanned[1] = 0;
4329                 zap_zone_vm_stats(zone);
4330                 zone->flags = 0;
4331                 if (!size)
4332                         continue;
4333
4334                 set_pageblock_order(pageblock_default_order());
4335                 setup_usemap(pgdat, zone, size);
4336                 ret = init_currently_empty_zone(zone, zone_start_pfn,
4337                                                 size, MEMMAP_EARLY);
4338                 BUG_ON(ret);
4339                 memmap_init(size, nid, j, zone_start_pfn);
4340                 zone_start_pfn += size;
4341         }
4342 }
4343
4344 static void __init_refok alloc_node_mem_map(struct pglist_data *pgdat)
4345 {
4346         /* Skip empty nodes */
4347         if (!pgdat->node_spanned_pages)
4348                 return;
4349
4350 #ifdef CONFIG_FLAT_NODE_MEM_MAP
4351         /* ia64 gets its own node_mem_map, before this, without bootmem */
4352         if (!pgdat->node_mem_map) {
4353                 unsigned long size, start, end;
4354                 struct page *map;
4355
4356                 /*
4357                  * The zone's endpoints aren't required to be MAX_ORDER
4358                  * aligned but the node_mem_map endpoints must be in order
4359                  * for the buddy allocator to function correctly.
4360                  */
4361                 start = pgdat->node_start_pfn & ~(MAX_ORDER_NR_PAGES - 1);
4362                 end = pgdat->node_start_pfn + pgdat->node_spanned_pages;
4363                 end = ALIGN(end, MAX_ORDER_NR_PAGES);
4364                 size =  (end - start) * sizeof(struct page);
4365                 map = alloc_remap(pgdat->node_id, size);
4366                 if (!map)
4367                         map = alloc_bootmem_node_nopanic(pgdat, size);
4368                 pgdat->node_mem_map = map + (pgdat->node_start_pfn - start);
4369         }
4370 #ifndef CONFIG_NEED_MULTIPLE_NODES
4371         /*
4372          * With no DISCONTIG, the global mem_map is just set as node 0's
4373          */
4374         if (pgdat == NODE_DATA(0)) {
4375                 mem_map = NODE_DATA(0)->node_mem_map;
4376 #ifdef CONFIG_ARCH_POPULATES_NODE_MAP
4377                 if (page_to_pfn(mem_map) != pgdat->node_start_pfn)
4378                         mem_map -= (pgdat->node_start_pfn - ARCH_PFN_OFFSET);
4379 #endif /* CONFIG_ARCH_POPULATES_NODE_MAP */
4380         }
4381 #endif
4382 #endif /* CONFIG_FLAT_NODE_MEM_MAP */
4383 }
4384
4385 void __paginginit free_area_init_node(int nid, unsigned long *zones_size,
4386                 unsigned long node_start_pfn, unsigned long *zholes_size)
4387 {
4388         pg_data_t *pgdat = NODE_DATA(nid);
4389
4390         pgdat->node_id = nid;
4391         pgdat->node_start_pfn = node_start_pfn;
4392         calculate_node_totalpages(pgdat, zones_size, zholes_size);
4393
4394         alloc_node_mem_map(pgdat);
4395 #ifdef CONFIG_FLAT_NODE_MEM_MAP
4396         printk(KERN_DEBUG "free_area_init_node: node %d, pgdat %08lx, node_mem_map %08lx\n",
4397                 nid, (unsigned long)pgdat,
4398                 (unsigned long)pgdat->node_mem_map);
4399 #endif
4400
4401         free_area_init_core(pgdat, zones_size, zholes_size);
4402 }
4403
4404 #ifdef CONFIG_ARCH_POPULATES_NODE_MAP
4405
4406 #if MAX_NUMNODES > 1
4407 /*
4408  * Figure out the number of possible node ids.
4409  */
4410 static void __init setup_nr_node_ids(void)
4411 {
4412         unsigned int node;
4413         unsigned int highest = 0;
4414
4415         for_each_node_mask(node, node_possible_map)
4416                 highest = node;
4417         nr_node_ids = highest + 1;
4418 }
4419 #else
4420 static inline void setup_nr_node_ids(void)
4421 {
4422 }
4423 #endif
4424
4425 /**
4426  * add_active_range - Register a range of PFNs backed by physical memory
4427  * @nid: The node ID the range resides on
4428  * @start_pfn: The start PFN of the available physical memory
4429  * @end_pfn: The end PFN of the available physical memory
4430  *
4431  * These ranges are stored in an early_node_map[] and later used by
4432  * free_area_init_nodes() to calculate zone sizes and holes. If the
4433  * range spans a memory hole, it is up to the architecture to ensure
4434  * the memory is not freed by the bootmem allocator. If possible
4435  * the range being registered will be merged with existing ranges.
4436  */
4437 void __init add_active_range(unsigned int nid, unsigned long start_pfn,
4438                                                 unsigned long end_pfn)
4439 {
4440         int i;
4441
4442         mminit_dprintk(MMINIT_TRACE, "memory_register",
4443                         "Entering add_active_range(%d, %#lx, %#lx) "
4444                         "%d entries of %d used\n",
4445                         nid, start_pfn, end_pfn,
4446                         nr_nodemap_entries, MAX_ACTIVE_REGIONS);
4447
4448         mminit_validate_memmodel_limits(&start_pfn, &end_pfn);
4449
4450         /* Merge with existing active regions if possible */
4451         for (i = 0; i < nr_nodemap_entries; i++) {
4452                 if (early_node_map[i].nid != nid)
4453                         continue;
4454
4455                 /* Skip if an existing region covers this new one */
4456                 if (start_pfn >= early_node_map[i].start_pfn &&
4457                                 end_pfn <= early_node_map[i].end_pfn)
4458                         return;
4459
4460                 /* Merge forward if suitable */
4461                 if (start_pfn <= early_node_map[i].end_pfn &&
4462                                 end_pfn > early_node_map[i].end_pfn) {
4463                         early_node_map[i].end_pfn = end_pfn;
4464                         return;
4465                 }
4466
4467                 /* Merge backward if suitable */
4468                 if (start_pfn < early_node_map[i].start_pfn &&
4469                                 end_pfn >= early_node_map[i].start_pfn) {
4470                         early_node_map[i].start_pfn = start_pfn;
4471                         return;
4472                 }
4473         }
4474
4475         /* Check that early_node_map is large enough */
4476         if (i >= MAX_ACTIVE_REGIONS) {
4477                 printk(KERN_CRIT "More than %d memory regions, truncating\n",
4478                                                         MAX_ACTIVE_REGIONS);
4479                 return;
4480         }
4481
4482         early_node_map[i].nid = nid;
4483         early_node_map[i].start_pfn = start_pfn;
4484         early_node_map[i].end_pfn = end_pfn;
4485         nr_nodemap_entries = i + 1;
4486 }
4487
4488 /**
4489  * remove_active_range - Shrink an existing registered range of PFNs
4490  * @nid: The node id the range is on that should be shrunk
4491  * @start_pfn: The new PFN of the range
4492  * @end_pfn: The new PFN of the range
4493  *
4494  * i386 with NUMA use alloc_remap() to store a node_mem_map on a local node.
4495  * The map is kept near the end physical page range that has already been
4496  * registered. This function allows an arch to shrink an existing registered
4497  * range.
4498  */
4499 void __init remove_active_range(unsigned int nid, unsigned long start_pfn,
4500                                 unsigned long end_pfn)
4501 {
4502         int i, j;
4503         int removed = 0;
4504
4505         printk(KERN_DEBUG "remove_active_range (%d, %lu, %lu)\n",
4506                           nid, start_pfn, end_pfn);
4507
4508         /* Find the old active region end and shrink */
4509         for_each_active_range_index_in_nid(i, nid) {
4510                 if (early_node_map[i].start_pfn >= start_pfn &&
4511                     early_node_map[i].end_pfn <= end_pfn) {
4512                         /* clear it */
4513                         early_node_map[i].start_pfn = 0;
4514                         early_node_map[i].end_pfn = 0;
4515                         removed = 1;
4516                         continue;
4517                 }
4518                 if (early_node_map[i].start_pfn < start_pfn &&
4519                     early_node_map[i].end_pfn > start_pfn) {
4520                         unsigned long temp_end_pfn = early_node_map[i].end_pfn;
4521                         early_node_map[i].end_pfn = start_pfn;
4522                         if (temp_end_pfn > end_pfn)
4523                                 add_active_range(nid, end_pfn, temp_end_pfn);
4524                         continue;
4525                 }
4526                 if (early_node_map[i].start_pfn >= start_pfn &&
4527                     early_node_map[i].end_pfn > end_pfn &&
4528                     early_node_map[i].start_pfn < end_pfn) {
4529                         early_node_map[i].start_pfn = end_pfn;
4530                         continue;
4531                 }
4532         }
4533
4534         if (!removed)
4535                 return;
4536
4537         /* remove the blank ones */
4538         for (i = nr_nodemap_entries - 1; i > 0; i--) {
4539                 if (early_node_map[i].nid != nid)
4540                         continue;
4541                 if (early_node_map[i].end_pfn)
4542                         continue;
4543                 /* we found it, get rid of it */
4544                 for (j = i; j < nr_nodemap_entries - 1; j++)
4545                         memcpy(&early_node_map[j], &early_node_map[j+1],
4546                                 sizeof(early_node_map[j]));
4547                 j = nr_nodemap_entries - 1;
4548                 memset(&early_node_map[j], 0, sizeof(early_node_map[j]));
4549                 nr_nodemap_entries--;
4550         }
4551 }
4552
4553 /**
4554  * remove_all_active_ranges - Remove all currently registered regions
4555  *
4556  * During discovery, it may be found that a table like SRAT is invalid
4557  * and an alternative discovery method must be used. This function removes
4558  * all currently registered regions.
4559  */
4560 void __init remove_all_active_ranges(void)
4561 {
4562         memset(early_node_map, 0, sizeof(early_node_map));
4563         nr_nodemap_entries = 0;
4564 }
4565
4566 /* Compare two active node_active_regions */
4567 static int __init cmp_node_active_region(const void *a, const void *b)
4568 {
4569         struct node_active_region *arange = (struct node_active_region *)a;
4570         struct node_active_region *brange = (struct node_active_region *)b;
4571
4572         /* Done this way to avoid overflows */
4573         if (arange->start_pfn > brange->start_pfn)
4574                 return 1;
4575         if (arange->start_pfn < brange->start_pfn)
4576                 return -1;
4577
4578         return 0;
4579 }
4580
4581 /* sort the node_map by start_pfn */
4582 void __init sort_node_map(void)
4583 {
4584         sort(early_node_map, (size_t)nr_nodemap_entries,
4585                         sizeof(struct node_active_region),
4586                         cmp_node_active_region, NULL);
4587 }
4588
4589 /* Find the lowest pfn for a node */
4590 static unsigned long __init find_min_pfn_for_node(int nid)
4591 {
4592         int i;
4593         unsigned long min_pfn = ULONG_MAX;
4594
4595         /* Assuming a sorted map, the first range found has the starting pfn */
4596         for_each_active_range_index_in_nid(i, nid)
4597                 min_pfn = min(min_pfn, early_node_map[i].start_pfn);
4598
4599         if (min_pfn == ULONG_MAX) {
4600                 printk(KERN_WARNING
4601                         "Could not find start_pfn for node %d\n", nid);
4602                 return 0;
4603         }
4604
4605         return min_pfn;
4606 }
4607
4608 /**
4609  * find_min_pfn_with_active_regions - Find the minimum PFN registered
4610  *
4611  * It returns the minimum PFN based on information provided via
4612  * add_active_range().
4613  */
4614 unsigned long __init find_min_pfn_with_active_regions(void)
4615 {
4616         return find_min_pfn_for_node(MAX_NUMNODES);
4617 }
4618
4619 /*
4620  * early_calculate_totalpages()
4621  * Sum pages in active regions for movable zone.
4622  * Populate N_HIGH_MEMORY for calculating usable_nodes.
4623  */
4624 static unsigned long __init early_calculate_totalpages(void)
4625 {
4626         int i;
4627         unsigned long totalpages = 0;
4628
4629         for (i = 0; i < nr_nodemap_entries; i++) {
4630                 unsigned long pages = early_node_map[i].end_pfn -
4631                                                 early_node_map[i].start_pfn;
4632                 totalpages += pages;
4633                 if (pages)
4634                         node_set_state(early_node_map[i].nid, N_HIGH_MEMORY);
4635         }
4636         return totalpages;
4637 }
4638
4639 /*
4640  * Find the PFN the Movable zone begins in each node. Kernel memory
4641  * is spread evenly between nodes as long as the nodes have enough
4642  * memory. When they don't, some nodes will have more kernelcore than
4643  * others
4644  */
4645 static void __init find_zone_movable_pfns_for_nodes(unsigned long *movable_pfn)
4646 {
4647         int i, nid;
4648         unsigned long usable_startpfn;
4649         unsigned long kernelcore_node, kernelcore_remaining;
4650         /* save the state before borrow the nodemask */
4651         nodemask_t saved_node_state = node_states[N_HIGH_MEMORY];
4652         unsigned long totalpages = early_calculate_totalpages();
4653         int usable_nodes = nodes_weight(node_states[N_HIGH_MEMORY]);
4654
4655         /*
4656          * If movablecore was specified, calculate what size of
4657          * kernelcore that corresponds so that memory usable for
4658          * any allocation type is evenly spread. If both kernelcore
4659          * and movablecore are specified, then the value of kernelcore
4660          * will be used for required_kernelcore if it's greater than
4661          * what movablecore would have allowed.
4662          */
4663         if (required_movablecore) {
4664                 unsigned long corepages;
4665
4666                 /*
4667                  * Round-up so that ZONE_MOVABLE is at least as large as what
4668                  * was requested by the user
4669                  */
4670                 required_movablecore =
4671                         roundup(required_movablecore, MAX_ORDER_NR_PAGES);
4672                 corepages = totalpages - required_movablecore;
4673
4674                 required_kernelcore = max(required_kernelcore, corepages);
4675         }
4676
4677         /* If kernelcore was not specified, there is no ZONE_MOVABLE */
4678         if (!required_kernelcore)
4679                 goto out;
4680
4681         /* usable_startpfn is the lowest possible pfn ZONE_MOVABLE can be at */
4682         find_usable_zone_for_movable();
4683         usable_startpfn = arch_zone_lowest_possible_pfn[movable_zone];
4684
4685 restart:
4686         /* Spread kernelcore memory as evenly as possible throughout nodes */
4687         kernelcore_node = required_kernelcore / usable_nodes;
4688         for_each_node_state(nid, N_HIGH_MEMORY) {
4689                 /*
4690                  * Recalculate kernelcore_node if the division per node
4691                  * now exceeds what is necessary to satisfy the requested
4692                  * amount of memory for the kernel
4693                  */
4694                 if (required_kernelcore < kernelcore_node)
4695                         kernelcore_node = required_kernelcore / usable_nodes;
4696
4697                 /*
4698                  * As the map is walked, we track how much memory is usable
4699                  * by the kernel using kernelcore_remaining. When it is
4700                  * 0, the rest of the node is usable by ZONE_MOVABLE
4701                  */
4702                 kernelcore_remaining = kernelcore_node;
4703
4704                 /* Go through each range of PFNs within this node */
4705                 for_each_active_range_index_in_nid(i, nid) {
4706                         unsigned long start_pfn, end_pfn;
4707                         unsigned long size_pages;
4708
4709                         start_pfn = max(early_node_map[i].start_pfn,
4710                                                 zone_movable_pfn[nid]);
4711                         end_pfn = early_node_map[i].end_pfn;
4712                         if (start_pfn >= end_pfn)
4713                                 continue;
4714
4715                         /* Account for what is only usable for kernelcore */
4716                         if (start_pfn < usable_startpfn) {
4717                                 unsigned long kernel_pages;
4718                                 kernel_pages = min(end_pfn, usable_startpfn)
4719                                                                 - start_pfn;
4720
4721                                 kernelcore_remaining -= min(kernel_pages,
4722                                                         kernelcore_remaining);
4723                                 required_kernelcore -= min(kernel_pages,
4724                                                         required_kernelcore);
4725
4726                                 /* Continue if range is now fully accounted */
4727                                 if (end_pfn <= usable_startpfn) {
4728
4729                                         /*
4730                                          * Push zone_movable_pfn to the end so
4731                                          * that if we have to rebalance
4732                                          * kernelcore across nodes, we will
4733                                          * not double account here
4734                                          */
4735                                         zone_movable_pfn[nid] = end_pfn;
4736                                         continue;
4737                                 }
4738                                 start_pfn = usable_startpfn;
4739                         }
4740
4741                         /*
4742                          * The usable PFN range for ZONE_MOVABLE is from
4743                          * start_pfn->end_pfn. Calculate size_pages as the
4744                          * number of pages used as kernelcore
4745                          */
4746                         size_pages = end_pfn - start_pfn;
4747                         if (size_pages > kernelcore_remaining)
4748                                 size_pages = kernelcore_remaining;
4749                         zone_movable_pfn[nid] = start_pfn + size_pages;
4750
4751                         /*
4752                          * Some kernelcore has been met, update counts and
4753                          * break if the kernelcore for this node has been
4754                          * satisified
4755                          */
4756                         required_kernelcore -= min(required_kernelcore,
4757                                                                 size_pages);
4758                         kernelcore_remaining -= size_pages;
4759                         if (!kernelcore_remaining)
4760                                 break;
4761                 }
4762         }
4763
4764         /*
4765          * If there is still required_kernelcore, we do another pass with one
4766          * less node in the count. This will push zone_movable_pfn[nid] further
4767          * along on the nodes that still have memory until kernelcore is
4768          * satisified
4769          */
4770         usable_nodes--;
4771         if (usable_nodes && required_kernelcore > usable_nodes)
4772                 goto restart;
4773
4774         /* Align start of ZONE_MOVABLE on all nids to MAX_ORDER_NR_PAGES */
4775         for (nid = 0; nid < MAX_NUMNODES; nid++)
4776                 zone_movable_pfn[nid] =
4777                         roundup(zone_movable_pfn[nid], MAX_ORDER_NR_PAGES);
4778
4779 out:
4780         /* restore the node_state */
4781         node_states[N_HIGH_MEMORY] = saved_node_state;
4782 }
4783
4784 /* Any regular memory on that node ? */
4785 static void check_for_regular_memory(pg_data_t *pgdat)
4786 {
4787 #ifdef CONFIG_HIGHMEM
4788         enum zone_type zone_type;
4789
4790         for (zone_type = 0; zone_type <= ZONE_NORMAL; zone_type++) {
4791                 struct zone *zone = &pgdat->node_zones[zone_type];
4792                 if (zone->present_pages)
4793                         node_set_state(zone_to_nid(zone), N_NORMAL_MEMORY);
4794         }
4795 #endif
4796 }
4797
4798 /**
4799  * free_area_init_nodes - Initialise all pg_data_t and zone data
4800  * @max_zone_pfn: an array of max PFNs for each zone
4801  *
4802  * This will call free_area_init_node() for each active node in the system.
4803  * Using the page ranges provided by add_active_range(), the size of each
4804  * zone in each node and their holes is calculated. If the maximum PFN
4805  * between two adjacent zones match, it is assumed that the zone is empty.
4806  * For example, if arch_max_dma_pfn == arch_max_dma32_pfn, it is assumed
4807  * that arch_max_dma32_pfn has no pages. It is also assumed that a zone
4808  * starts where the previous one ended. For example, ZONE_DMA32 starts
4809  * at arch_max_dma_pfn.
4810  */
4811 void __init free_area_init_nodes(unsigned long *max_zone_pfn)
4812 {
4813         unsigned long nid;
4814         int i;
4815
4816         /* Sort early_node_map as initialisation assumes it is sorted */
4817         sort_node_map();
4818
4819         /* Record where the zone boundaries are */
4820         memset(arch_zone_lowest_possible_pfn, 0,
4821                                 sizeof(arch_zone_lowest_possible_pfn));
4822         memset(arch_zone_highest_possible_pfn, 0,
4823                                 sizeof(arch_zone_highest_possible_pfn));
4824         arch_zone_lowest_possible_pfn[0] = find_min_pfn_with_active_regions();
4825         arch_zone_highest_possible_pfn[0] = max_zone_pfn[0];
4826         for (i = 1; i < MAX_NR_ZONES; i++) {
4827                 if (i == ZONE_MOVABLE)
4828                         continue;
4829                 arch_zone_lowest_possible_pfn[i] =
4830                         arch_zone_highest_possible_pfn[i-1];
4831                 arch_zone_highest_possible_pfn[i] =
4832                         max(max_zone_pfn[i], arch_zone_lowest_possible_pfn[i]);
4833         }
4834         arch_zone_lowest_possible_pfn[ZONE_MOVABLE] = 0;
4835         arch_zone_highest_possible_pfn[ZONE_MOVABLE] = 0;
4836
4837         /* Find the PFNs that ZONE_MOVABLE begins at in each node */
4838         memset(zone_movable_pfn, 0, sizeof(zone_movable_pfn));
4839         find_zone_movable_pfns_for_nodes(zone_movable_pfn);
4840
4841         /* Print out the zone ranges */
4842         printk("Zone PFN ranges:\n");
4843         for (i = 0; i < MAX_NR_ZONES; i++) {
4844                 if (i == ZONE_MOVABLE)
4845                         continue;
4846                 printk("  %-8s ", zone_names[i]);
4847                 if (arch_zone_lowest_possible_pfn[i] ==
4848                                 arch_zone_highest_possible_pfn[i])
4849                         printk("empty\n");
4850                 else
4851                         printk("%0#10lx -> %0#10lx\n",
4852                                 arch_zone_lowest_possible_pfn[i],
4853                                 arch_zone_highest_possible_pfn[i]);
4854         }
4855
4856         /* Print out the PFNs ZONE_MOVABLE begins at in each node */
4857         printk("Movable zone start PFN for each node\n");
4858         for (i = 0; i < MAX_NUMNODES; i++) {
4859                 if (zone_movable_pfn[i])
4860                         printk("  Node %d: %lu\n", i, zone_movable_pfn[i]);
4861         }
4862
4863         /* Print out the early_node_map[] */
4864         printk("early_node_map[%d] active PFN ranges\n", nr_nodemap_entries);
4865         for (i = 0; i < nr_nodemap_entries; i++)
4866                 printk("  %3d: %0#10lx -> %0#10lx\n", early_node_map[i].nid,
4867                                                 early_node_map[i].start_pfn,
4868                                                 early_node_map[i].end_pfn);
4869
4870         /* Initialise every node */
4871         mminit_verify_pageflags_layout();
4872         setup_nr_node_ids();
4873         for_each_online_node(nid) {
4874                 pg_data_t *pgdat = NODE_DATA(nid);
4875                 free_area_init_node(nid, NULL,
4876                                 find_min_pfn_for_node(nid), NULL);
4877
4878                 /* Any memory on that node */
4879                 if (pgdat->node_present_pages)
4880                         node_set_state(nid, N_HIGH_MEMORY);
4881                 check_for_regular_memory(pgdat);
4882         }
4883 }
4884
4885 static int __init cmdline_parse_core(char *p, unsigned long *core)
4886 {
4887         unsigned long long coremem;
4888         if (!p)
4889                 return -EINVAL;
4890
4891         coremem = memparse(p, &p);
4892         *core = coremem >> PAGE_SHIFT;
4893
4894         /* Paranoid check that UL is enough for the coremem value */
4895         WARN_ON((coremem >> PAGE_SHIFT) > ULONG_MAX);
4896
4897         return 0;
4898 }
4899
4900 /*
4901  * kernelcore=size sets the amount of memory for use for allocations that
4902  * cannot be reclaimed or migrated.
4903  */
4904 static int __init cmdline_parse_kernelcore(char *p)
4905 {
4906         return cmdline_parse_core(p, &required_kernelcore);
4907 }
4908
4909 /*
4910  * movablecore=size sets the amount of memory for use for allocations that
4911  * can be reclaimed or migrated.
4912  */
4913 static int __init cmdline_parse_movablecore(char *p)
4914 {
4915         return cmdline_parse_core(p, &required_movablecore);
4916 }
4917
4918 early_param("kernelcore", cmdline_parse_kernelcore);
4919 early_param("movablecore", cmdline_parse_movablecore);
4920
4921 #endif /* CONFIG_ARCH_POPULATES_NODE_MAP */
4922
4923 /**
4924  * set_dma_reserve - set the specified number of pages reserved in the first zone
4925  * @new_dma_reserve: The number of pages to mark reserved
4926  *
4927  * The per-cpu batchsize and zone watermarks are determined by present_pages.
4928  * In the DMA zone, a significant percentage may be consumed by kernel image
4929  * and other unfreeable allocations which can skew the watermarks badly. This
4930  * function may optionally be used to account for unfreeable pages in the
4931  * first zone (e.g., ZONE_DMA). The effect will be lower watermarks and
4932  * smaller per-cpu batchsize.
4933  */
4934 void __init set_dma_reserve(unsigned long new_dma_reserve)
4935 {
4936         dma_reserve = new_dma_reserve;
4937 }
4938
4939 void __init free_area_init(unsigned long *zones_size)
4940 {
4941         free_area_init_node(0, zones_size,
4942                         __pa(PAGE_OFFSET) >> PAGE_SHIFT, NULL);
4943 }
4944
4945 static int page_alloc_cpu_notify(struct notifier_block *self,
4946                                  unsigned long action, void *hcpu)
4947 {
4948         int cpu = (unsigned long)hcpu;
4949
4950         if (action == CPU_DEAD || action == CPU_DEAD_FROZEN) {
4951                 drain_pages(cpu);
4952
4953                 /*
4954                  * Spill the event counters of the dead processor
4955                  * into the current processors event counters.
4956                  * This artificially elevates the count of the current
4957                  * processor.
4958                  */
4959                 vm_events_fold_cpu(cpu);
4960
4961                 /*
4962                  * Zero the differential counters of the dead processor
4963                  * so that the vm statistics are consistent.
4964                  *
4965                  * This is only okay since the processor is dead and cannot
4966                  * race with what we are doing.
4967                  */
4968                 refresh_cpu_vm_stats(cpu);
4969         }
4970         return NOTIFY_OK;
4971 }
4972
4973 void __init page_alloc_init(void)
4974 {
4975         hotcpu_notifier(page_alloc_cpu_notify, 0);
4976 }
4977
4978 /*
4979  * calculate_totalreserve_pages - called when sysctl_lower_zone_reserve_ratio
4980  *      or min_free_kbytes changes.
4981  */
4982 static void calculate_totalreserve_pages(void)
4983 {
4984         struct pglist_data *pgdat;
4985         unsigned long reserve_pages = 0;
4986         enum zone_type i, j;
4987
4988         for_each_online_pgdat(pgdat) {
4989                 for (i = 0; i < MAX_NR_ZONES; i++) {
4990                         struct zone *zone = pgdat->node_zones + i;
4991                         unsigned long max = 0;
4992
4993                         /* Find valid and maximum lowmem_reserve in the zone */
4994                         for (j = i; j < MAX_NR_ZONES; j++) {
4995                                 if (zone->lowmem_reserve[j] > max)
4996                                         max = zone->lowmem_reserve[j];
4997                         }
4998
4999                         /* we treat the high watermark as reserved pages. */
5000                         max += high_wmark_pages(zone);
5001
5002                         if (max > zone->present_pages)
5003                                 max = zone->present_pages;
5004                         reserve_pages += max;
5005                 }
5006         }
5007         totalreserve_pages = reserve_pages;
5008 }
5009
5010 /*
5011  * setup_per_zone_lowmem_reserve - called whenever
5012  *      sysctl_lower_zone_reserve_ratio changes.  Ensures that each zone
5013  *      has a correct pages reserved value, so an adequate number of
5014  *      pages are left in the zone after a successful __alloc_pages().
5015  */
5016 static void setup_per_zone_lowmem_reserve(void)
5017 {
5018         struct pglist_data *pgdat;
5019         enum zone_type j, idx;
5020
5021         for_each_online_pgdat(pgdat) {
5022                 for (j = 0; j < MAX_NR_ZONES; j++) {
5023                         struct zone *zone = pgdat->node_zones + j;
5024                         unsigned long present_pages = zone->present_pages;
5025
5026                         zone->lowmem_reserve[j] = 0;
5027
5028                         idx = j;
5029                         while (idx) {
5030                                 struct zone *lower_zone;
5031
5032                                 idx--;
5033
5034                                 if (sysctl_lowmem_reserve_ratio[idx] < 1)
5035                                         sysctl_lowmem_reserve_ratio[idx] = 1;
5036
5037                                 lower_zone = pgdat->node_zones + idx;
5038                                 lower_zone->lowmem_reserve[j] = present_pages /
5039                                         sysctl_lowmem_reserve_ratio[idx];
5040                                 present_pages += lower_zone->present_pages;
5041                         }
5042                 }
5043         }
5044
5045         /* update totalreserve_pages */
5046         calculate_totalreserve_pages();
5047 }
5048
5049 /**
5050  * setup_per_zone_wmarks - called when min_free_kbytes changes
5051  * or when memory is hot-{added|removed}
5052  *
5053  * Ensures that the watermark[min,low,high] values for each zone are set
5054  * correctly with respect to min_free_kbytes.
5055  */
5056 void setup_per_zone_wmarks(void)
5057 {
5058         unsigned long pages_min = min_free_kbytes >> (PAGE_SHIFT - 10);
5059         unsigned long lowmem_pages = 0;
5060         struct zone *zone;
5061         unsigned long flags;
5062
5063         /* Calculate total number of !ZONE_HIGHMEM pages */
5064         for_each_zone(zone) {
5065                 if (!is_highmem(zone))
5066                         lowmem_pages += zone->present_pages;
5067         }
5068
5069         for_each_zone(zone) {
5070                 u64 tmp;
5071
5072                 spin_lock_irqsave(&zone->lock, flags);
5073                 tmp = (u64)pages_min * zone->present_pages;
5074                 do_div(tmp, lowmem_pages);
5075                 if (is_highmem(zone)) {
5076                         /*
5077                          * __GFP_HIGH and PF_MEMALLOC allocations usually don't
5078                          * need highmem pages, so cap pages_min to a small
5079                          * value here.
5080                          *
5081                          * The WMARK_HIGH-WMARK_LOW and (WMARK_LOW-WMARK_MIN)
5082                          * deltas controls asynch page reclaim, and so should
5083                          * not be capped for highmem.
5084                          */
5085                         int min_pages;
5086
5087                         min_pages = zone->present_pages / 1024;
5088                         if (min_pages < SWAP_CLUSTER_MAX)
5089                                 min_pages = SWAP_CLUSTER_MAX;
5090                         if (min_pages > 128)
5091                                 min_pages = 128;
5092                         zone->watermark[WMARK_MIN] = min_pages;
5093                 } else {
5094                         /*
5095                          * If it's a lowmem zone, reserve a number of pages
5096                          * proportionate to the zone's size.
5097                          */
5098                         zone->watermark[WMARK_MIN] = tmp;
5099                 }
5100
5101                 zone->watermark[WMARK_LOW]  = min_wmark_pages(zone) + (tmp >> 2);
5102                 zone->watermark[WMARK_HIGH] = min_wmark_pages(zone) + (tmp >> 1);
5103                 setup_zone_migrate_reserve(zone);
5104                 spin_unlock_irqrestore(&zone->lock, flags);
5105         }
5106
5107         /* update totalreserve_pages */
5108         calculate_totalreserve_pages();
5109 }
5110
5111 /*
5112  * The inactive anon list should be small enough that the VM never has to
5113  * do too much work, but large enough that each inactive page has a chance
5114  * to be referenced again before it is swapped out.
5115  *
5116  * The inactive_anon ratio is the target ratio of ACTIVE_ANON to
5117  * INACTIVE_ANON pages on this zone's LRU, maintained by the
5118  * pageout code. A zone->inactive_ratio of 3 means 3:1 or 25% of
5119  * the anonymous pages are kept on the inactive list.
5120  *
5121  * total     target    max
5122  * memory    ratio     inactive anon
5123  * -------------------------------------
5124  *   10MB       1         5MB
5125  *  100MB       1        50MB
5126  *    1GB       3       250MB
5127  *   10GB      10       0.9GB
5128  *  100GB      31         3GB
5129  *    1TB     101        10GB
5130  *   10TB     320        32GB
5131  */
5132 static void __meminit calculate_zone_inactive_ratio(struct zone *zone)
5133 {
5134         unsigned int gb, ratio;
5135
5136         /* Zone size in gigabytes */
5137         gb = zone->present_pages >> (30 - PAGE_SHIFT);
5138         if (gb)
5139                 ratio = int_sqrt(10 * gb);
5140         else
5141                 ratio = 1;
5142
5143         zone->inactive_ratio = ratio;
5144 }
5145
5146 static void __meminit setup_per_zone_inactive_ratio(void)
5147 {
5148         struct zone *zone;
5149
5150         for_each_zone(zone)
5151                 calculate_zone_inactive_ratio(zone);
5152 }
5153
5154 /*
5155  * Initialise min_free_kbytes.
5156  *
5157  * For small machines we want it small (128k min).  For large machines
5158  * we want it large (64MB max).  But it is not linear, because network
5159  * bandwidth does not increase linearly with machine size.  We use
5160  *
5161  *      min_free_kbytes = 4 * sqrt(lowmem_kbytes), for better accuracy:
5162  *      min_free_kbytes = sqrt(lowmem_kbytes * 16)
5163  *
5164  * which yields
5165  *
5166  * 16MB:        512k
5167  * 32MB:        724k
5168  * 64MB:        1024k
5169  * 128MB:       1448k
5170  * 256MB:       2048k
5171  * 512MB:       2896k
5172  * 1024MB:      4096k
5173  * 2048MB:      5792k
5174  * 4096MB:      8192k
5175  * 8192MB:      11584k
5176  * 16384MB:     16384k
5177  */
5178 int __meminit init_per_zone_wmark_min(void)
5179 {
5180         unsigned long lowmem_kbytes;
5181
5182         lowmem_kbytes = nr_free_buffer_pages() * (PAGE_SIZE >> 10);
5183
5184         min_free_kbytes = int_sqrt(lowmem_kbytes * 16);
5185         if (min_free_kbytes < 128)
5186                 min_free_kbytes = 128;
5187         if (min_free_kbytes > 65536)
5188                 min_free_kbytes = 65536;
5189         setup_per_zone_wmarks();
5190         refresh_zone_stat_thresholds();
5191         setup_per_zone_lowmem_reserve();
5192         setup_per_zone_inactive_ratio();
5193         return 0;
5194 }
5195 module_init(init_per_zone_wmark_min)
5196
5197 /*
5198  * min_free_kbytes_sysctl_handler - just a wrapper around proc_dointvec() so 
5199  *      that we can call two helper functions whenever min_free_kbytes
5200  *      changes.
5201  */
5202 int min_free_kbytes_sysctl_handler(ctl_table *table, int write, 
5203         void __user *buffer, size_t *length, loff_t *ppos)
5204 {
5205         proc_dointvec(table, write, buffer, length, ppos);
5206         if (write)
5207                 setup_per_zone_wmarks();
5208         return 0;
5209 }
5210
5211 #ifdef CONFIG_NUMA
5212 int sysctl_min_unmapped_ratio_sysctl_handler(ctl_table *table, int write,
5213         void __user *buffer, size_t *length, loff_t *ppos)
5214 {
5215         struct zone *zone;
5216         int rc;
5217
5218         rc = proc_dointvec_minmax(table, write, buffer, length, ppos);
5219         if (rc)
5220                 return rc;
5221
5222         for_each_zone(zone)
5223                 zone->min_unmapped_pages = (zone->present_pages *
5224                                 sysctl_min_unmapped_ratio) / 100;
5225         return 0;
5226 }
5227
5228 int sysctl_min_slab_ratio_sysctl_handler(ctl_table *table, int write,
5229         void __user *buffer, size_t *length, loff_t *ppos)
5230 {
5231         struct zone *zone;
5232         int rc;
5233
5234         rc = proc_dointvec_minmax(table, write, buffer, length, ppos);
5235         if (rc)
5236                 return rc;
5237
5238         for_each_zone(zone)
5239                 zone->min_slab_pages = (zone->present_pages *
5240                                 sysctl_min_slab_ratio) / 100;
5241         return 0;
5242 }
5243 #endif
5244
5245 /*
5246  * lowmem_reserve_ratio_sysctl_handler - just a wrapper around
5247  *      proc_dointvec() so that we can call setup_per_zone_lowmem_reserve()
5248  *      whenever sysctl_lowmem_reserve_ratio changes.
5249  *
5250  * The reserve ratio obviously has absolutely no relation with the
5251  * minimum watermarks. The lowmem reserve ratio can only make sense
5252  * if in function of the boot time zone sizes.
5253  */
5254 int lowmem_reserve_ratio_sysctl_handler(ctl_table *table, int write,
5255         void __user *buffer, size_t *length, loff_t *ppos)
5256 {
5257         proc_dointvec_minmax(table, write, buffer, length, ppos);
5258         setup_per_zone_lowmem_reserve();
5259         return 0;
5260 }
5261
5262 /*
5263  * percpu_pagelist_fraction - changes the pcp->high for each zone on each
5264  * cpu.  It is the fraction of total pages in each zone that a hot per cpu pagelist
5265  * can have before it gets flushed back to buddy allocator.
5266  */
5267
5268 int percpu_pagelist_fraction_sysctl_handler(ctl_table *table, int write,
5269         void __user *buffer, size_t *length, loff_t *ppos)
5270 {
5271         struct zone *zone;
5272         unsigned int cpu;
5273         int ret;
5274
5275         ret = proc_dointvec_minmax(table, write, buffer, length, ppos);
5276         if (!write || (ret == -EINVAL))
5277                 return ret;
5278         for_each_populated_zone(zone) {
5279                 for_each_possible_cpu(cpu) {
5280                         unsigned long  high;
5281                         high = zone->present_pages / percpu_pagelist_fraction;
5282                         setup_pagelist_highmark(
5283                                 per_cpu_ptr(zone->pageset, cpu), high);
5284                 }
5285         }
5286         return 0;
5287 }
5288
5289 int hashdist = HASHDIST_DEFAULT;
5290
5291 #ifdef CONFIG_NUMA
5292 static int __init set_hashdist(char *str)
5293 {
5294         if (!str)
5295                 return 0;
5296         hashdist = simple_strtoul(str, &str, 0);
5297         return 1;
5298 }
5299 __setup("hashdist=", set_hashdist);
5300 #endif
5301
5302 /*
5303  * allocate a large system hash table from bootmem
5304  * - it is assumed that the hash table must contain an exact power-of-2
5305  *   quantity of entries
5306  * - limit is the number of hash buckets, not the total allocation size
5307  */
5308 void *__init alloc_large_system_hash(const char *tablename,
5309                                      unsigned long bucketsize,
5310                                      unsigned long numentries,
5311                                      int scale,
5312                                      int flags,
5313                                      unsigned int *_hash_shift,
5314                                      unsigned int *_hash_mask,
5315                                      unsigned long limit)
5316 {
5317         unsigned long long max = limit;
5318         unsigned long log2qty, size;
5319         void *table = NULL;
5320
5321         /* allow the kernel cmdline to have a say */
5322         if (!numentries) {
5323                 /* round applicable memory size up to nearest megabyte */
5324                 numentries = nr_kernel_pages;
5325                 numentries += (1UL << (20 - PAGE_SHIFT)) - 1;
5326                 numentries >>= 20 - PAGE_SHIFT;
5327                 numentries <<= 20 - PAGE_SHIFT;
5328
5329                 /* limit to 1 bucket per 2^scale bytes of low memory */
5330                 if (scale > PAGE_SHIFT)
5331                         numentries >>= (scale - PAGE_SHIFT);
5332                 else
5333                         numentries <<= (PAGE_SHIFT - scale);
5334
5335                 /* Make sure we've got at least a 0-order allocation.. */
5336                 if (unlikely(flags & HASH_SMALL)) {
5337                         /* Makes no sense without HASH_EARLY */
5338                         WARN_ON(!(flags & HASH_EARLY));
5339                         if (!(numentries >> *_hash_shift)) {
5340                                 numentries = 1UL << *_hash_shift;
5341                                 BUG_ON(!numentries);
5342                         }
5343                 } else if (unlikely((numentries * bucketsize) < PAGE_SIZE))
5344                         numentries = PAGE_SIZE / bucketsize;
5345         }
5346         numentries = roundup_pow_of_two(numentries);
5347
5348         /* limit allocation size to 1/16 total memory by default */
5349         if (max == 0) {
5350                 max = ((unsigned long long)nr_all_pages << PAGE_SHIFT) >> 4;
5351                 do_div(max, bucketsize);
5352         }
5353
5354         if (numentries > max)
5355                 numentries = max;
5356
5357         log2qty = ilog2(numentries);
5358
5359         do {
5360                 size = bucketsize << log2qty;
5361                 if (flags & HASH_EARLY)
5362                         table = alloc_bootmem_nopanic(size);
5363                 else if (hashdist)
5364                         table = __vmalloc(size, GFP_ATOMIC, PAGE_KERNEL);
5365                 else {
5366                         /*
5367                          * If bucketsize is not a power-of-two, we may free
5368                          * some pages at the end of hash table which
5369                          * alloc_pages_exact() automatically does
5370                          */
5371                         if (get_order(size) < MAX_ORDER) {
5372                                 table = alloc_pages_exact(size, GFP_ATOMIC);
5373                                 kmemleak_alloc(table, size, 1, GFP_ATOMIC);
5374                         }
5375                 }
5376         } while (!table && size > PAGE_SIZE && --log2qty);
5377
5378         if (!table)
5379                 panic("Failed to allocate %s hash table\n", tablename);
5380
5381         printk(KERN_INFO "%s hash table entries: %ld (order: %d, %lu bytes)\n",
5382                tablename,
5383                (1UL << log2qty),
5384                ilog2(size) - PAGE_SHIFT,
5385                size);
5386
5387         if (_hash_shift)
5388                 *_hash_shift = log2qty;
5389         if (_hash_mask)
5390                 *_hash_mask = (1 << log2qty) - 1;
5391
5392         return table;
5393 }
5394
5395 /* Return a pointer to the bitmap storing bits affecting a block of pages */
5396 static inline unsigned long *get_pageblock_bitmap(struct zone *zone,
5397                                                         unsigned long pfn)
5398 {
5399 #ifdef CONFIG_SPARSEMEM
5400         return __pfn_to_section(pfn)->pageblock_flags;
5401 #else
5402         return zone->pageblock_flags;
5403 #endif /* CONFIG_SPARSEMEM */
5404 }
5405
5406 static inline int pfn_to_bitidx(struct zone *zone, unsigned long pfn)
5407 {
5408 #ifdef CONFIG_SPARSEMEM
5409         pfn &= (PAGES_PER_SECTION-1);
5410         return (pfn >> pageblock_order) * NR_PAGEBLOCK_BITS;
5411 #else
5412         pfn = pfn - zone->zone_start_pfn;
5413         return (pfn >> pageblock_order) * NR_PAGEBLOCK_BITS;
5414 #endif /* CONFIG_SPARSEMEM */
5415 }
5416
5417 /**
5418  * get_pageblock_flags_group - Return the requested group of flags for the pageblock_nr_pages block of pages
5419  * @page: The page within the block of interest
5420  * @start_bitidx: The first bit of interest to retrieve
5421  * @end_bitidx: The last bit of interest
5422  * returns pageblock_bits flags
5423  */
5424 unsigned long get_pageblock_flags_group(struct page *page,
5425                                         int start_bitidx, int end_bitidx)
5426 {
5427         struct zone *zone;
5428         unsigned long *bitmap;
5429         unsigned long pfn, bitidx;
5430         unsigned long flags = 0;
5431         unsigned long value = 1;
5432
5433         zone = page_zone(page);
5434         pfn = page_to_pfn(page);
5435         bitmap = get_pageblock_bitmap(zone, pfn);
5436         bitidx = pfn_to_bitidx(zone, pfn);
5437
5438         for (; start_bitidx <= end_bitidx; start_bitidx++, value <<= 1)
5439                 if (test_bit(bitidx + start_bitidx, bitmap))
5440                         flags |= value;
5441
5442         return flags;
5443 }
5444
5445 /**
5446  * set_pageblock_flags_group - Set the requested group of flags for a pageblock_nr_pages block of pages
5447  * @page: The page within the block of interest
5448  * @start_bitidx: The first bit of interest
5449  * @end_bitidx: The last bit of interest
5450  * @flags: The flags to set
5451  */
5452 void set_pageblock_flags_group(struct page *page, unsigned long flags,
5453                                         int start_bitidx, int end_bitidx)
5454 {
5455         struct zone *zone;
5456         unsigned long *bitmap;
5457         unsigned long pfn, bitidx;
5458         unsigned long value = 1;
5459
5460         zone = page_zone(page);
5461         pfn = page_to_pfn(page);
5462         bitmap = get_pageblock_bitmap(zone, pfn);
5463         bitidx = pfn_to_bitidx(zone, pfn);
5464         VM_BUG_ON(pfn < zone->zone_start_pfn);
5465         VM_BUG_ON(pfn >= zone->zone_start_pfn + zone->spanned_pages);
5466
5467         for (; start_bitidx <= end_bitidx; start_bitidx++, value <<= 1)
5468                 if (flags & value)
5469                         __set_bit(bitidx + start_bitidx, bitmap);
5470                 else
5471                         __clear_bit(bitidx + start_bitidx, bitmap);
5472 }
5473
5474 /*
5475  * This is designed as sub function...plz see page_isolation.c also.
5476  * set/clear page block's type to be ISOLATE.
5477  * page allocater never alloc memory from ISOLATE block.
5478  */
5479
5480 static int
5481 __count_immobile_pages(struct zone *zone, struct page *page, int count)
5482 {
5483         unsigned long pfn, iter, found;
5484         /*
5485          * For avoiding noise data, lru_add_drain_all() should be called
5486          * If ZONE_MOVABLE, the zone never contains immobile pages
5487          */
5488         if (zone_idx(zone) == ZONE_MOVABLE)
5489                 return true;
5490
5491         if (get_pageblock_migratetype(page) == MIGRATE_MOVABLE)
5492                 return true;
5493
5494         pfn = page_to_pfn(page);
5495         for (found = 0, iter = 0; iter < pageblock_nr_pages; iter++) {
5496                 unsigned long check = pfn + iter;
5497
5498                 if (!pfn_valid_within(check))
5499                         continue;
5500
5501                 page = pfn_to_page(check);
5502                 if (!page_count(page)) {
5503                         if (PageBuddy(page))
5504                                 iter += (1 << page_order(page)) - 1;
5505                         continue;
5506                 }
5507                 if (!PageLRU(page))
5508                         found++;
5509                 /*
5510                  * If there are RECLAIMABLE pages, we need to check it.
5511                  * But now, memory offline itself doesn't call shrink_slab()
5512                  * and it still to be fixed.
5513                  */
5514                 /*
5515                  * If the page is not RAM, page_count()should be 0.
5516                  * we don't need more check. This is an _used_ not-movable page.
5517                  *
5518                  * The problematic thing here is PG_reserved pages. PG_reserved
5519                  * is set to both of a memory hole page and a _used_ kernel
5520                  * page at boot.
5521                  */
5522                 if (found > count)
5523                         return false;
5524         }
5525         return true;
5526 }
5527
5528 bool is_pageblock_removable_nolock(struct page *page)
5529 {
5530         struct zone *zone = page_zone(page);
5531         return __count_immobile_pages(zone, page, 0);
5532 }
5533
5534 int set_migratetype_isolate(struct page *page)
5535 {
5536         struct zone *zone;
5537         unsigned long flags, pfn;
5538         struct memory_isolate_notify arg;
5539         int notifier_ret;
5540         int ret = -EBUSY;
5541
5542         zone = page_zone(page);
5543
5544         spin_lock_irqsave(&zone->lock, flags);
5545
5546         pfn = page_to_pfn(page);
5547         arg.start_pfn = pfn;
5548         arg.nr_pages = pageblock_nr_pages;
5549         arg.pages_found = 0;
5550
5551         /*
5552          * It may be possible to isolate a pageblock even if the
5553          * migratetype is not MIGRATE_MOVABLE. The memory isolation
5554          * notifier chain is used by balloon drivers to return the
5555          * number of pages in a range that are held by the balloon
5556          * driver to shrink memory. If all the pages are accounted for
5557          * by balloons, are free, or on the LRU, isolation can continue.
5558          * Later, for example, when memory hotplug notifier runs, these
5559          * pages reported as "can be isolated" should be isolated(freed)
5560          * by the balloon driver through the memory notifier chain.
5561          */
5562         notifier_ret = memory_isolate_notify(MEM_ISOLATE_COUNT, &arg);
5563         notifier_ret = notifier_to_errno(notifier_ret);
5564         if (notifier_ret)
5565                 goto out;
5566         /*
5567          * FIXME: Now, memory hotplug doesn't call shrink_slab() by itself.
5568          * We just check MOVABLE pages.
5569          */
5570         if (__count_immobile_pages(zone, page, arg.pages_found))
5571                 ret = 0;
5572
5573         /*
5574          * immobile means "not-on-lru" paes. If immobile is larger than
5575          * removable-by-driver pages reported by notifier, we'll fail.
5576          */
5577
5578 out:
5579         if (!ret) {
5580                 set_pageblock_migratetype(page, MIGRATE_ISOLATE);
5581                 move_freepages_block(zone, page, MIGRATE_ISOLATE);
5582         }
5583
5584         spin_unlock_irqrestore(&zone->lock, flags);
5585         if (!ret)
5586                 drain_all_pages();
5587         return ret;
5588 }
5589
5590 void unset_migratetype_isolate(struct page *page)
5591 {
5592         struct zone *zone;
5593         unsigned long flags;
5594         zone = page_zone(page);
5595         spin_lock_irqsave(&zone->lock, flags);
5596         if (get_pageblock_migratetype(page) != MIGRATE_ISOLATE)
5597                 goto out;
5598         set_pageblock_migratetype(page, MIGRATE_MOVABLE);
5599         move_freepages_block(zone, page, MIGRATE_MOVABLE);
5600 out:
5601         spin_unlock_irqrestore(&zone->lock, flags);
5602 }
5603
5604 #ifdef CONFIG_MEMORY_HOTREMOVE
5605 /*
5606  * All pages in the range must be isolated before calling this.
5607  */
5608 void
5609 __offline_isolated_pages(unsigned long start_pfn, unsigned long end_pfn)
5610 {
5611         struct page *page;
5612         struct zone *zone;
5613         int order, i;
5614         unsigned long pfn;
5615         unsigned long flags;
5616         /* find the first valid pfn */
5617         for (pfn = start_pfn; pfn < end_pfn; pfn++)
5618                 if (pfn_valid(pfn))
5619                         break;
5620         if (pfn == end_pfn)
5621                 return;
5622         zone = page_zone(pfn_to_page(pfn));
5623         spin_lock_irqsave(&zone->lock, flags);
5624         pfn = start_pfn;
5625         while (pfn < end_pfn) {
5626                 if (!pfn_valid(pfn)) {
5627                         pfn++;
5628                         continue;
5629                 }
5630                 page = pfn_to_page(pfn);
5631                 BUG_ON(page_count(page));
5632                 BUG_ON(!PageBuddy(page));
5633                 order = page_order(page);
5634 #ifdef CONFIG_DEBUG_VM
5635                 printk(KERN_INFO "remove from free list %lx %d %lx\n",
5636                        pfn, 1 << order, end_pfn);
5637 #endif
5638                 list_del(&page->lru);
5639                 rmv_page_order(page);
5640                 zone->free_area[order].nr_free--;
5641                 __mod_zone_page_state(zone, NR_FREE_PAGES,
5642                                       - (1UL << order));
5643                 for (i = 0; i < (1 << order); i++)
5644                         SetPageReserved((page+i));
5645                 pfn += (1 << order);
5646         }
5647         spin_unlock_irqrestore(&zone->lock, flags);
5648 }
5649 #endif
5650
5651 #ifdef CONFIG_MEMORY_FAILURE
5652 bool is_free_buddy_page(struct page *page)
5653 {
5654         struct zone *zone = page_zone(page);
5655         unsigned long pfn = page_to_pfn(page);
5656         unsigned long flags;
5657         int order;
5658
5659         spin_lock_irqsave(&zone->lock, flags);
5660         for (order = 0; order < MAX_ORDER; order++) {
5661                 struct page *page_head = page - (pfn & ((1 << order) - 1));
5662
5663                 if (PageBuddy(page_head) && page_order(page_head) >= order)
5664                         break;
5665         }
5666         spin_unlock_irqrestore(&zone->lock, flags);
5667
5668         return order < MAX_ORDER;
5669 }
5670 #endif
5671
5672 static struct trace_print_flags pageflag_names[] = {
5673         {1UL << PG_locked,              "locked"        },
5674         {1UL << PG_error,               "error"         },
5675         {1UL << PG_referenced,          "referenced"    },
5676         {1UL << PG_uptodate,            "uptodate"      },
5677         {1UL << PG_dirty,               "dirty"         },
5678         {1UL << PG_lru,                 "lru"           },
5679         {1UL << PG_active,              "active"        },
5680         {1UL << PG_slab,                "slab"          },
5681         {1UL << PG_owner_priv_1,        "owner_priv_1"  },
5682         {1UL << PG_arch_1,              "arch_1"        },
5683         {1UL << PG_reserved,            "reserved"      },
5684         {1UL << PG_private,             "private"       },
5685         {1UL << PG_private_2,           "private_2"     },
5686         {1UL << PG_writeback,           "writeback"     },
5687 #ifdef CONFIG_PAGEFLAGS_EXTENDED
5688         {1UL << PG_head,                "head"          },
5689         {1UL << PG_tail,                "tail"          },
5690 #else
5691         {1UL << PG_compound,            "compound"      },
5692 #endif
5693         {1UL << PG_swapcache,           "swapcache"     },
5694         {1UL << PG_mappedtodisk,        "mappedtodisk"  },
5695         {1UL << PG_reclaim,             "reclaim"       },
5696         {1UL << PG_swapbacked,          "swapbacked"    },
5697         {1UL << PG_unevictable,         "unevictable"   },
5698 #ifdef CONFIG_MMU
5699         {1UL << PG_mlocked,             "mlocked"       },
5700 #endif
5701 #ifdef CONFIG_ARCH_USES_PG_UNCACHED
5702         {1UL << PG_uncached,            "uncached"      },
5703 #endif
5704 #ifdef CONFIG_MEMORY_FAILURE
5705         {1UL << PG_hwpoison,            "hwpoison"      },
5706 #endif
5707         {-1UL,                          NULL            },
5708 };
5709
5710 static void dump_page_flags(unsigned long flags)
5711 {
5712         const char *delim = "";
5713         unsigned long mask;
5714         int i;
5715
5716         printk(KERN_ALERT "page flags: %#lx(", flags);
5717
5718         /* remove zone id */
5719         flags &= (1UL << NR_PAGEFLAGS) - 1;
5720
5721         for (i = 0; pageflag_names[i].name && flags; i++) {
5722
5723                 mask = pageflag_names[i].mask;
5724                 if ((flags & mask) != mask)
5725                         continue;
5726
5727                 flags &= ~mask;
5728                 printk("%s%s", delim, pageflag_names[i].name);
5729                 delim = "|";
5730         }
5731
5732         /* check for left over flags */
5733         if (flags)
5734                 printk("%s%#lx", delim, flags);
5735
5736         printk(")\n");
5737 }
5738
5739 void dump_page(struct page *page)
5740 {
5741         printk(KERN_ALERT
5742                "page:%p count:%d mapcount:%d mapping:%p index:%#lx\n",
5743                 page, atomic_read(&page->_count), page_mapcount(page),
5744                 page->mapping, page->index);
5745         dump_page_flags(page->flags);
5746         mem_cgroup_print_bad_page(page);
5747 }