In english Хотелка Об авторе

Кажется, я поправил много всякого в Интерре

Я хотел было уже закопать этот движок, но так вышло, что я не смог найти для собственного движка приличного парсера вики, и даже не смог «подружить" HTMLPurifier с Markdown, и в результате решил, что стоит попробовать «допилить" парсер из Интерры.

Там он, в свою очередь взят из уже давно дохлой WackoWiki, и сам парсер, что удивительно, без проблем пережёвывает юникод. Проблемы с юникодом обнаружились у двух библиотек, typografica и paragrafica, занимающихся «облагораживаенем» текста : неразрывные пробелы вставляют, где надо, лишние пробелы убирают, заменяют кавычки на «лапки» или «ёлочки», и т.д.

Так вот, ненатуралы, которые писали эти библиотеки, думали, что кроме CP1251 кодировок нет, и в качестве временных маркеров использовали коды \200, \201, \202, и т.д.

И ещё слишком много шаманства с addslashes()/stripslashes() и magic_quotes в самой Интерре.

Из-за этого в юникоде портились мои посты и мои комментарии. Комментарии «простых смертых" не портились, потому что пропускались через SafeHTML вместо вики-парсера со спецэффектами.

А этот пост написан в первую очередь чтобы проверить, как парсер работает, и только потом – чтобы поназывать всех ненатуралами.

test, типа.

Top

Категория: [code] Слова: интерра, индусы
@lj

Комментарии Отключены

anonymous

Так, вроде работает.

26.01.2009 // 15:40 [ ссылка ]

Ответ от Автора

Не без странностей, конечно

26.01.2009 // 15:40 [ ссылка ]

ZYV

Кавычки криво парсятся.

26.02.8833 // 12:33 [ ссылка ]

Ответ от Автора

Да, вижу. Отключу наверно, нахрен, это типографику. Парные кавычки я сам могу ввести, не винде, чай :)

26.02.1059 // 12:33 [ ссылка ]