В интернете опять кто-то неправ. На CPAN куча модулей для парсинга LaTeX-документов, и абсолютно все кривые. Авторы явно не в курсе ни о лексерах, ни о том, что без токенизации, исключительно на регэкспах, даже базовую грамматику выделить не получится. В результате, десятки килобайт кода, не проходящего даже простейшие тесты вида:
\command[opts]{arg}
Посмотрел на это, всплакнул, за пару часов реализовал парсер и принтер грамматики первого уровня. Может пригодится кому-нибудь: https://github.com/johnlepikhin/p5-TeX-Process. В README куча примеров, не вижу смысла как-то отдельно комментировать.