複数のPDFファイルを grep して一気に検索する方法

複数のPDFの中身から特定の文字列を探していたのですが、面倒なので grep できんのか・・・と思っていたら pdftotext というコマンドを発見したのでメモします。

PDFファイルを pdftotext でテキストファイルに変換して grep するというもの。

% cat /etc/redhat-release
CentOS release 5 (Final)

yum install poppler-utils

参考URL

例

find ./ -name "*.pdf" -print0 | xargs -0 -i pdftotext {} {}.txt

.pdf ファイルのある同じ階層に .pdf.txt というファイルを作ります。

例

find ./ -name "*.pdf.txt" -print0 | xargs -0 -i grep hogehoge {}