Add MSVC support for FOLLY_FINAL and FOLLY_OVERRIDE
[folly.git] / folly / json.cpp
1 /*
2  * Copyright 2015 Facebook, Inc.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at
7  *
8  *   http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include <folly/json.h>
18 #include <cassert>
19 #include <boost/next_prior.hpp>
20 #include <boost/algorithm/string.hpp>
21
22 #include <folly/Conv.h>
23 #include <folly/Range.h>
24 #include <folly/String.h>
25 #include <folly/Unicode.h>
26
27 namespace folly {
28
29 //////////////////////////////////////////////////////////////////////
30
31 namespace json {
32 namespace {
33
34 char32_t decodeUtf8(
35     const unsigned char*& p,
36     const unsigned char* const e,
37     bool skipOnError) {
38   /* The following encodings are valid, except for the 5 and 6 byte
39    * combinations:
40    * 0xxxxxxx
41    * 110xxxxx 10xxxxxx
42    * 1110xxxx 10xxxxxx 10xxxxxx
43    * 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
44    * 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
45    * 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
46    */
47
48   auto skip = [&] { ++p; return U'\ufffd'; };
49
50   if (p >= e) {
51     if (skipOnError) return skip();
52     throw std::runtime_error("folly::decodeUtf8 empty/invalid string");
53   }
54
55   unsigned char fst = *p;
56   if (!(fst & 0x80)) {
57     // trivial case
58     return *p++;
59   }
60
61   static const uint32_t bitMask[] = {
62     (1 << 7) - 1,
63     (1 << 11) - 1,
64     (1 << 16) - 1,
65     (1 << 21) - 1
66   };
67
68   // upper control bits are masked out later
69   uint32_t d = fst;
70
71   if ((fst & 0xC0) != 0xC0) {
72     if (skipOnError) return skip();
73     throw std::runtime_error(to<std::string>("folly::decodeUtf8 i=0 d=", d));
74   }
75
76   fst <<= 1;
77
78   for (unsigned int i = 1; i != 3 && p + i < e; ++i) {
79     unsigned char tmp = p[i];
80
81     if ((tmp & 0xC0) != 0x80) {
82       if (skipOnError) return skip();
83       throw std::runtime_error(
84         to<std::string>("folly::decodeUtf8 i=", i, " tmp=", (uint32_t)tmp));
85     }
86
87     d = (d << 6) | (tmp & 0x3F);
88     fst <<= 1;
89
90     if (!(fst & 0x80)) {
91       d &= bitMask[i];
92
93       // overlong, could have been encoded with i bytes
94       if ((d & ~bitMask[i - 1]) == 0) {
95         if (skipOnError) return skip();
96         throw std::runtime_error(
97           to<std::string>("folly::decodeUtf8 i=", i, " d=", d));
98       }
99
100       // check for surrogates only needed for 3 bytes
101       if (i == 2) {
102         if ((d >= 0xD800 && d <= 0xDFFF) || d > 0x10FFFF) {
103           if (skipOnError) return skip();
104           throw std::runtime_error(
105             to<std::string>("folly::decodeUtf8 i=", i, " d=", d));
106         }
107       }
108
109       p += i + 1;
110       return d;
111     }
112   }
113
114   if (skipOnError) return skip();
115   throw std::runtime_error("folly::decodeUtf8 encoding length maxed out");
116 }
117
118 struct Printer {
119   explicit Printer(fbstring& out,
120                    unsigned* indentLevel,
121                    serialization_opts const* opts)
122     : out_(out)
123     , indentLevel_(indentLevel)
124     , opts_(*opts)
125   {}
126
127   void operator()(dynamic const& v) const {
128     switch (v.type()) {
129     case dynamic::DOUBLE:
130       if (!opts_.allow_nan_inf &&
131           (std::isnan(v.asDouble()) || std::isinf(v.asDouble()))) {
132         throw std::runtime_error("folly::toJson: JSON object value was a "
133           "NaN or INF");
134       }
135       toAppend(v.asDouble(), &out_, opts_.double_mode, opts_.double_num_digits);
136       break;
137     case dynamic::INT64: {
138       auto intval = v.asInt();
139       if (opts_.javascript_safe) {
140         // Use folly::to to check that this integer can be represented
141         // as a double without loss of precision.
142         intval = int64_t(to<double>(intval));
143       }
144       toAppend(intval, &out_);
145       break;
146     }
147     case dynamic::BOOL:
148       out_ += v.asBool() ? "true" : "false";
149       break;
150     case dynamic::NULLT:
151       out_ += "null";
152       break;
153     case dynamic::STRING:
154       escapeString(v.asString(), out_, opts_);
155       break;
156     case dynamic::OBJECT:
157       printObject(v);
158       break;
159     case dynamic::ARRAY:
160       printArray(v);
161       break;
162     default:
163       CHECK(0) << "Bad type " << v.type();
164     }
165   }
166
167 private:
168   void printKV(const std::pair<const dynamic, dynamic>& p) const {
169     if (!opts_.allow_non_string_keys && !p.first.isString()) {
170       throw std::runtime_error("folly::toJson: JSON object key was not a "
171         "string");
172     }
173     (*this)(p.first);
174     mapColon();
175     (*this)(p.second);
176   }
177
178   template <typename Iterator>
179   void printKVPairs(Iterator begin, Iterator end) const {
180     printKV(*begin);
181     for (++begin; begin != end; ++begin) {
182       out_ += ',';
183       newline();
184       printKV(*begin);
185     }
186   }
187
188   void printObject(dynamic const& o) const {
189     if (o.empty()) {
190       out_ += "{}";
191       return;
192     }
193
194     out_ += '{';
195     indent();
196     newline();
197     if (opts_.sort_keys) {
198       std::vector<std::pair<dynamic, dynamic>> items(
199         o.items().begin(), o.items().end());
200       std::sort(items.begin(), items.end());
201       printKVPairs(items.begin(), items.end());
202     } else {
203       printKVPairs(o.items().begin(), o.items().end());
204     }
205     outdent();
206     newline();
207     out_ += '}';
208   }
209
210   void printArray(dynamic const& a) const {
211     if (a.empty()) {
212       out_ += "[]";
213       return;
214     }
215
216     out_ += '[';
217     indent();
218     newline();
219     (*this)(a[0]);
220     for (auto& val : range(boost::next(a.begin()), a.end())) {
221       out_ += ',';
222       newline();
223       (*this)(val);
224     }
225     outdent();
226     newline();
227     out_ += ']';
228   }
229
230 private:
231   void outdent() const {
232     if (indentLevel_) {
233       --*indentLevel_;
234     }
235   }
236
237   void indent() const {
238     if (indentLevel_) {
239       ++*indentLevel_;
240     }
241   }
242
243   void newline() const {
244     if (indentLevel_) {
245       out_ += to<fbstring>('\n', fbstring(*indentLevel_ * 2, ' '));
246     }
247   }
248
249   void mapColon() const {
250     out_ += indentLevel_ ? " : " : ":";
251   }
252
253 private:
254   fbstring& out_;
255   unsigned* const indentLevel_;
256   serialization_opts const& opts_;
257 };
258
259   //////////////////////////////////////////////////////////////////////
260
261   struct ParseError : std::runtime_error {
262     explicit ParseError(int line)
263       : std::runtime_error(to<std::string>("json parse error on line ", line))
264     {}
265
266     explicit ParseError(int line, std::string const& context,
267         std::string const& expected)
268       : std::runtime_error(to<std::string>("json parse error on line ", line,
269           !context.empty() ? to<std::string>(" near `", context, '\'')
270                           : "",
271           ": ", expected))
272     {}
273
274     explicit ParseError(std::string const& msg)
275       : std::runtime_error("json parse error: " + msg)
276     {}
277   };
278
279 // Wraps our input buffer with some helper functions.
280 struct Input {
281   explicit Input(StringPiece range, json::serialization_opts const* opts)
282       : range_(range)
283       , opts_(*opts)
284       , lineNum_(0)
285   {
286     storeCurrent();
287   }
288
289   Input(Input const&) = delete;
290   Input& operator=(Input const&) = delete;
291
292   char const* begin() const { return range_.begin(); }
293
294   // Parse ahead for as long as the supplied predicate is satisfied,
295   // returning a range of what was skipped.
296   template<class Predicate>
297   StringPiece skipWhile(const Predicate& p) {
298     std::size_t skipped = 0;
299     for (; skipped < range_.size(); ++skipped) {
300       if (!p(range_[skipped])) {
301         break;
302       }
303       if (range_[skipped] == '\n') {
304         ++lineNum_;
305       }
306     }
307     auto ret = range_.subpiece(0, skipped);
308     range_.advance(skipped);
309     storeCurrent();
310     return ret;
311   }
312
313   StringPiece skipDigits() {
314     return skipWhile([] (char c) { return c >= '0' && c <= '9'; });
315   }
316
317   StringPiece skipMinusAndDigits() {
318     bool firstChar = true;
319     return skipWhile([&firstChar] (char c) {
320         bool result = (c >= '0' && c <= '9') || (firstChar && c == '-');
321         firstChar = false;
322         return result;
323       });
324   }
325
326   void skipWhitespace() {
327     range_ = folly::skipWhitespace(range_);
328     storeCurrent();
329   }
330
331   void expect(char c) {
332     if (**this != c) {
333       throw ParseError(lineNum_, context(),
334         to<std::string>("expected '", c, '\''));
335     }
336     ++*this;
337   }
338
339   std::size_t size() const {
340     return range_.size();
341   }
342
343   int operator*() const {
344     return current_;
345   }
346
347   void operator++() {
348     range_.pop_front();
349     storeCurrent();
350   }
351
352   template<class T>
353   T extract() {
354     try {
355       return to<T>(&range_);
356     } catch (std::exception const& e) {
357       error(e.what());
358     }
359   }
360
361   bool consume(StringPiece str) {
362     if (boost::starts_with(range_, str)) {
363       range_.advance(str.size());
364       storeCurrent();
365       return true;
366     }
367     return false;
368   }
369
370   std::string context() const {
371     return range_.subpiece(0, 16 /* arbitrary */).toString();
372   }
373
374   dynamic error(char const* what) const {
375     throw ParseError(lineNum_, context(), what);
376   }
377
378   json::serialization_opts const& getOpts() {
379     return opts_;
380   }
381
382 private:
383   void storeCurrent() {
384     current_ = range_.empty() ? EOF : range_.front();
385   }
386
387 private:
388   StringPiece range_;
389   json::serialization_opts const& opts_;
390   unsigned lineNum_;
391   int current_;
392 };
393
394 dynamic parseValue(Input& in);
395 fbstring parseString(Input& in);
396 dynamic parseNumber(Input& in);
397
398 dynamic parseObject(Input& in) {
399   assert(*in == '{');
400   ++in;
401
402   dynamic ret = dynamic::object;
403
404   in.skipWhitespace();
405   if (*in == '}') {
406     ++in;
407     return ret;
408   }
409
410   for (;;) {
411     if (in.getOpts().allow_trailing_comma && *in == '}') {
412       break;
413     }
414     if (*in == '\"') { // string
415       auto key = parseString(in);
416       in.skipWhitespace();
417       in.expect(':');
418       in.skipWhitespace();
419       ret.insert(std::move(key), parseValue(in));
420     } else if (!in.getOpts().allow_non_string_keys) {
421       in.error("expected string for object key name");
422     } else {
423       auto key = parseValue(in);
424       in.skipWhitespace();
425       in.expect(':');
426       in.skipWhitespace();
427       ret.insert(std::move(key), parseValue(in));
428     }
429
430     in.skipWhitespace();
431     if (*in != ',') {
432       break;
433     }
434     ++in;
435     in.skipWhitespace();
436   }
437   in.expect('}');
438
439   return ret;
440 }
441
442 dynamic parseArray(Input& in) {
443   assert(*in == '[');
444   ++in;
445
446   dynamic ret = {};
447
448   in.skipWhitespace();
449   if (*in == ']') {
450     ++in;
451     return ret;
452   }
453
454   for (;;) {
455     if (in.getOpts().allow_trailing_comma && *in == ']') {
456       break;
457     }
458     ret.push_back(parseValue(in));
459     in.skipWhitespace();
460     if (*in != ',') {
461       break;
462     }
463     ++in;
464     in.skipWhitespace();
465   }
466   in.expect(']');
467
468   return ret;
469 }
470
471 dynamic parseNumber(Input& in) {
472   bool const negative = (*in == '-');
473   if (negative) {
474     if (in.consume("-Infinity")) {
475       return -std::numeric_limits<double>::infinity();
476     }
477   }
478
479   auto integral = in.skipMinusAndDigits();
480   if (negative && integral.size() < 2) {
481     in.error("expected digits after `-'");
482   }
483
484   auto const wasE = *in == 'e' || *in == 'E';
485   if (*in != '.' && !wasE) {
486     auto val = to<int64_t>(integral);
487     in.skipWhitespace();
488     return val;
489   }
490
491   auto end = !wasE ? (++in, in.skipDigits().end()) : in.begin();
492   if (*in == 'e' || *in == 'E') {
493     ++in;
494     if (*in == '+' || *in == '-') {
495       ++in;
496     }
497     auto expPart = in.skipDigits();
498     end = expPart.end();
499   }
500   auto fullNum = range(integral.begin(), end);
501
502   auto val = to<double>(fullNum);
503   return val;
504 }
505
506 fbstring decodeUnicodeEscape(Input& in) {
507   auto hexVal = [&] (char c) -> unsigned {
508     return c >= '0' && c <= '9' ? c - '0' :
509            c >= 'a' && c <= 'f' ? c - 'a' + 10 :
510            c >= 'A' && c <= 'F' ? c - 'A' + 10 :
511            (in.error("invalid hex digit"), 0);
512   };
513
514   auto readHex = [&]() -> uint16_t {
515     if (in.size() < 4) {
516       in.error("expected 4 hex digits");
517     }
518
519     uint16_t ret = hexVal(*in) * 4096;
520     ++in;
521     ret += hexVal(*in) * 256;
522     ++in;
523     ret += hexVal(*in) * 16;
524     ++in;
525     ret += hexVal(*in);
526     ++in;
527     return ret;
528   };
529
530   /*
531    * If the value encoded is in the surrogate pair range, we need to
532    * make sure there is another escape that we can use also.
533    */
534   uint32_t codePoint = readHex();
535   if (codePoint >= 0xd800 && codePoint <= 0xdbff) {
536     if (!in.consume("\\u")) {
537       in.error("expected another unicode escape for second half of "
538         "surrogate pair");
539     }
540     uint16_t second = readHex();
541     if (second >= 0xdc00 && second <= 0xdfff) {
542       codePoint = 0x10000 + ((codePoint & 0x3ff) << 10) +
543                   (second & 0x3ff);
544     } else {
545       in.error("second character in surrogate pair is invalid");
546     }
547   } else if (codePoint >= 0xdc00 && codePoint <= 0xdfff) {
548     in.error("invalid unicode code point (in range [0xdc00,0xdfff])");
549   }
550
551   return codePointToUtf8(codePoint);
552 }
553
554 fbstring parseString(Input& in) {
555   assert(*in == '\"');
556   ++in;
557
558   fbstring ret;
559   for (;;) {
560     auto range = in.skipWhile(
561       [] (char c) { return c != '\"' && c != '\\'; }
562     );
563     ret.append(range.begin(), range.end());
564
565     if (*in == '\"') {
566       ++in;
567       break;
568     }
569     if (*in == '\\') {
570       ++in;
571       switch (*in) {
572       case '\"':    ret.push_back('\"'); ++in; break;
573       case '\\':    ret.push_back('\\'); ++in; break;
574       case '/':     ret.push_back('/');  ++in; break;
575       case 'b':     ret.push_back('\b'); ++in; break;
576       case 'f':     ret.push_back('\f'); ++in; break;
577       case 'n':     ret.push_back('\n'); ++in; break;
578       case 'r':     ret.push_back('\r'); ++in; break;
579       case 't':     ret.push_back('\t'); ++in; break;
580       case 'u':     ++in; ret += decodeUnicodeEscape(in); break;
581       default:      in.error(to<fbstring>("unknown escape ", *in,
582                                           " in string").c_str());
583       }
584       continue;
585     }
586     if (*in == EOF) {
587       in.error("unterminated string");
588     }
589     if (!*in) {
590       /*
591        * Apparently we're actually supposed to ban all control
592        * characters from strings.  This seems unnecessarily
593        * restrictive, so we're only banning zero bytes.  (Since the
594        * string is presumed to be UTF-8 encoded it's fine to just
595        * check this way.)
596        */
597       in.error("null byte in string");
598     }
599
600     ret.push_back(*in);
601     ++in;
602   }
603
604   return ret;
605 }
606
607 dynamic parseValue(Input& in) {
608   in.skipWhitespace();
609   return *in == '[' ? parseArray(in) :
610          *in == '{' ? parseObject(in) :
611          *in == '\"' ? parseString(in) :
612          (*in == '-' || (*in >= '0' && *in <= '9')) ? parseNumber(in) :
613          in.consume("true") ? true :
614          in.consume("false") ? false :
615          in.consume("null") ? nullptr :
616          in.consume("Infinity") ? std::numeric_limits<double>::infinity() :
617          in.consume("NaN") ? std::numeric_limits<double>::quiet_NaN() :
618          in.error("expected json value");
619 }
620
621 }
622
623 //////////////////////////////////////////////////////////////////////
624
625 fbstring serialize(dynamic const& dyn, serialization_opts const& opts) {
626   fbstring ret;
627   unsigned indentLevel = 0;
628   Printer p(ret, opts.pretty_formatting ? &indentLevel : nullptr, &opts);
629   p(dyn);
630   return ret;
631 }
632
633 // Escape a string so that it is legal to print it in JSON text.
634 void escapeString(StringPiece input,
635                   fbstring& out,
636                   const serialization_opts& opts) {
637   auto hexDigit = [] (int c) -> char {
638     return c < 10 ? c + '0' : c - 10 + 'a';
639   };
640
641   out.reserve(out.size() + input.size() + 2);
642   out.push_back('\"');
643
644   auto* p = reinterpret_cast<const unsigned char*>(input.begin());
645   auto* q = reinterpret_cast<const unsigned char*>(input.begin());
646   auto* e = reinterpret_cast<const unsigned char*>(input.end());
647
648   while (p < e) {
649     // Since non-ascii encoding inherently does utf8 validation
650     // we explicitly validate utf8 only if non-ascii encoding is disabled.
651     if ((opts.validate_utf8 || opts.skip_invalid_utf8)
652         && !opts.encode_non_ascii) {
653       // to achieve better spatial and temporal coherence
654       // we do utf8 validation progressively along with the
655       // string-escaping instead of two separate passes
656
657       // as the encoding progresses, q will stay at or ahead of p
658       CHECK(q >= p);
659
660       // as p catches up with q, move q forward
661       if (q == p) {
662         // calling utf8_decode has the side effect of
663         // checking that utf8 encodings are valid
664         char32_t v = decodeUtf8(q, e, opts.skip_invalid_utf8);
665         if (opts.skip_invalid_utf8 && v == U'\ufffd') {
666           out.append("\ufffd");
667           p = q;
668           continue;
669         }
670       }
671     }
672     if (opts.encode_non_ascii && (*p & 0x80)) {
673       // note that this if condition captures utf8 chars
674       // with value > 127, so size > 1 byte
675       char32_t v = decodeUtf8(p, e, opts.skip_invalid_utf8);
676       out.append("\\u");
677       out.push_back(hexDigit(v >> 12));
678       out.push_back(hexDigit((v >> 8) & 0x0f));
679       out.push_back(hexDigit((v >> 4) & 0x0f));
680       out.push_back(hexDigit(v & 0x0f));
681     } else if (*p == '\\' || *p == '\"') {
682       out.push_back('\\');
683       out.push_back(*p++);
684     } else if (*p <= 0x1f) {
685       switch (*p) {
686         case '\b': out.append("\\b"); p++; break;
687         case '\f': out.append("\\f"); p++; break;
688         case '\n': out.append("\\n"); p++; break;
689         case '\r': out.append("\\r"); p++; break;
690         case '\t': out.append("\\t"); p++; break;
691         default:
692           // note that this if condition captures non readable chars
693           // with value < 32, so size = 1 byte (e.g control chars).
694           out.append("\\u00");
695           out.push_back(hexDigit((*p & 0xf0) >> 4));
696           out.push_back(hexDigit(*p & 0xf));
697           p++;
698       }
699     } else {
700       out.push_back(*p++);
701     }
702   }
703
704   out.push_back('\"');
705 }
706
707 fbstring stripComments(StringPiece jsonC) {
708   fbstring result;
709   enum class State {
710     None,
711     InString,
712     InlineComment,
713     LineComment
714   } state = State::None;
715
716   for (size_t i = 0; i < jsonC.size(); ++i) {
717     auto s = jsonC.subpiece(i);
718     switch (state) {
719       case State::None:
720         if (s.startsWith("/*")) {
721           state = State::InlineComment;
722           ++i;
723           continue;
724         } else if (s.startsWith("//")) {
725           state = State::LineComment;
726           ++i;
727           continue;
728         } else if (s[0] == '\"') {
729           state = State::InString;
730         }
731         result.push_back(s[0]);
732         break;
733       case State::InString:
734         if (s[0] == '\\') {
735           if (UNLIKELY(s.size() == 1)) {
736             throw std::logic_error("Invalid JSONC: string is not terminated");
737           }
738           result.push_back(s[0]);
739           result.push_back(s[1]);
740           ++i;
741           continue;
742         } else if (s[0] == '\"') {
743           state = State::None;
744         }
745         result.push_back(s[0]);
746         break;
747       case State::InlineComment:
748         if (s.startsWith("*/")) {
749           state = State::None;
750           ++i;
751         }
752         break;
753       case State::LineComment:
754         if (s[0] == '\n') {
755           // skip the line break. It doesn't matter.
756           state = State::None;
757         }
758         break;
759       default:
760         throw std::logic_error("Unknown comment state");
761     }
762   }
763   return result;
764 }
765
766 }
767
768 //////////////////////////////////////////////////////////////////////
769
770 dynamic parseJson(StringPiece range) {
771   return parseJson(range, json::serialization_opts());
772 }
773
774 dynamic parseJson(
775     StringPiece range,
776     json::serialization_opts const& opts) {
777
778   json::Input in(range, &opts);
779
780   auto ret = parseValue(in);
781   in.skipWhitespace();
782   if (in.size() && *in != '\0') {
783     in.error("parsing didn't consume all input");
784   }
785   return ret;
786 }
787
788 fbstring toJson(dynamic const& dyn) {
789   return json::serialize(dyn, json::serialization_opts());
790 }
791
792 fbstring toPrettyJson(dynamic const& dyn) {
793   json::serialization_opts opts;
794   opts.pretty_formatting = true;
795   return json::serialize(dyn, opts);
796 }
797
798 //////////////////////////////////////////////////////////////////////
799 // dynamic::print_as_pseudo_json() is implemented here for header
800 // ordering reasons (most of the dynamic implementation is in
801 // dynamic-inl.h, which we don't want to include json.h).
802
803 void dynamic::print_as_pseudo_json(std::ostream& out) const {
804   json::serialization_opts opts;
805   opts.allow_non_string_keys = true;
806   opts.allow_nan_inf = true;
807   out << json::serialize(*this, opts);
808 }
809
810 //////////////////////////////////////////////////////////////////////
811
812 }