コピーできないPDFをコピーしてWordに変換する(貼り付ける)方法【困ったときの豆知識】
【注】やり方を今すぐに知りたい方は、
青いハイライトをしている箇所に書いてありますので
画面をスクロールしてそちらをご覧ください
翻訳の仕事をしていると
PDF形式のファイルをよく使うのですが
PDFはたまに
テキストのコピーができないものがあって
困ります
最近は
翻訳の作業をするとき
ほぼ必ず
CATツールを使うのですが
その際
テキスト化できないファイルは
使えないのです
(使えないですよね?)
先日もある自治体の仕事で
海外の自治体さ作成したPDFレポートを
CATツールで翻訳したかったのですが
どういうわけか
ロックがかかっていて
コピーできなかったのです
ちなみに
通常は
PDFファイルでも
テキストを選択してコピーすると
ワードなどと同じように
コピーすることができます
今回も
PDFをコピーして
ワードにテキストだけを取り出して
CATツールに入れようと思ったら
コピーができない!
18ページほど
5000ワードほどのレポートだったので
自分でタイピングするのは辛い…
原文を読みながら
昔ながらの方法で
1文ずつ手許で訳していくか…
と思って
10行くらいタイピングを始めたのですが
とてもじゃないけど大変!
しかも
納期まで3日しかなくて
タイピングをすれば
確実に半日は取られてしまう…
他の仕事も詰まっていたので
もう絶望的だったわけです
で
何とかして
テキストだけでも抽出する方法はないか…
テキスト読み取りアプリで
なんとかできないか…
などと思い
調べてみたら
こんなサイトを見つけました
↓
WindowsパソコンでPDFのテキスト文字がコピーできない時の解決法 (itojisan.xyz)
なんと
コピーできないPDFファイルも
できるようになる場合がある
というのです
半信半疑でした
「どうせ、俺の場合はダメなんでしょ」
と
ぶつくさ言いながら
でも
やり方を読んでみて
試しにやってみることにしました
このサイトの説明によると
特別なアプリなどは必要なく
Google Chrome さえあればOK
とのことなんです
「え~、うそでしょ?」
と思ったのですが
とりあえずやってみると…
できた!
あっさりできましたとさww
まあ
できない場合もあるらしいので
どんなPDFでも対応できるわけではないと思いますが
コピーできないときは
とりあえずこれを試してみる価値は
あると思います
ということで
その簡単なやり方を
自分の備忘録用にも
ここでまとめておきたいと思います
①まず、Google Chromeを開く
②開いた画面の上にPDFファイルをドラッグ&ドロップする
すると、PDFがChrome内で開く
③そのデータを「印刷」→「PDFに保存」
すると
同じようなPDFファイルが保存されるのですが
中身は元のPDFファイルと全く変わりないのに
こうして保存したPDFは
ロックが掛かっていない状態になり
普通にコピーできるようになります
上で紹介した解説サイトでも書いてありましたが
これは
Chromeのバグかもわからないので
もしかしたら
いずれこの操作ができなくなる可能性はありますね
ともかく
これで
普通にコピーができるようになりました
とても簡単でした
※できないPDFファイルもあるので
詳しくは上の解説サイトをご覧ください
ということで
私もこの手法で
PDFをワードにコピーして
めでたく
CATツールにかけて
通常通りに翻訳作業をすることができ
とっても助かりました!
今朝、無事に納品も済ませました
ところで
解説サイトでは
Chromeを使うとあったのですが
他のブラウザでは
ダメなのでしょうか?
私は普段は
Edgeを使うことがほとんどで
Edgeではダメなのかな?
と思って
試しにやってみました
同じ手順です
そしたら
まったく同じ結果になりました
つまり
コピーのできるPDFの変換することができました
ウェブブラウザといえば
もう1つありますよね
もしかしたら
EdgeとChromeい比べたら
知名度が低いのかもしれませんが…
Firefox というブラウザ
こちらでも試してみました
(このためだけに、ダウンロードしましたww)
すると
Firefoxでも
同じようにできました
ということで
ウェブブラウザであれば
どれでもできるんですかね
そういれば
もう1つノルウェーの会社が開発した
というブラウザもありましたね
前のパソコンでは
確かデフォルトで入っていたので
使ったことがあるのですが
今のパソコンには入れていません
で
こちらは
インストールするのもあれだったので
試していません
どなたかOPERAをお持ちの方で
試すことができたら
やってみてください
ちなみに…
ChromeにPDFをドロップして
Chrome内で開いた状態で
(PDFとして改めて印刷・保存する前)
その状態で
ブラウザ上でコピーをしようとすると…
Chromeは大丈夫だったのですが
Edgeはコピーできませんでした
Firefoxはコピーできました
しかし
そうやってブラウザからコピーしたものを
Wordに貼り付けようとすると
ちょっと違いが出ました
コピーして
そのまま貼り付けると
つまり
「HTML形式」で貼り付けると
左:Chromeから貼り付け、右:Firefoxから貼り付け
随分と違いました
私は最初
左の、Chromeから直接貼り付けたのでした
結果的に
私の場合はこれで良かったのですが
Chromeからそのまま(HTML形式で)貼り付けると
要するに
ベタ打ち
のようになって
改行もなにもない状態で貼り付けられます
これ一見すると大変そうなんですが
翻訳の目的からすると
比較的都合がいいのです
納品する際には
もちろん
ベタ打ちのままではダメなので
少しレイアウトを調整しますが…
これが
Firefoxからの貼り付けのようになっていると
とても困るのです
レイアウトが分かりやすそうで
一見すると良さそうなのですが
1文1文をよく見ると
すべて改行されているのです
要するに
ブラウザに表示された状態で
各行に「改行」が入ってしまっているのです
これだと
CATツールに入れるとき
都合が悪いのです
改行されていると
文がそこで区切られていると認識されてしまいます
それでは
1文1文を区切って翻訳する
CATツールでは
うまくいかないのです
一方、
Chromeだと
このような改行が入らないで
すべて1文であるかのように認識されているようなのです
ですから
ベタ打ち
だけれども
余計なところに「改行」が入っていないので
CATツールには都合がいいです
ところで
貼り付ける形式を
「テキスト形式」に変えて貼り付けてみると…
左:Chromeから貼り付け、右:Firefoxから貼り付け
こんどは
左右あまり変わりがありません
Firefoxは1行目に改行が入っているくらい
しかし
テキスト形式だと
Chromeの方でも
1行1行に「改行」が入ってしまいます
それから
Firefoxの大きな違いは…
今回コピペした元ファイルは
全部で18ページのPFDファイルだったのですが
Firefox で開いたものをコピペしようとしても
全部貼り付けにならず
10ページくらいしか
貼り付けられないのでした
理由はちょっとわかりませんでした
つまり
文書全体を1回でペーストできない
ということです
一度にコピーできるのが
だいたい10ページくらいのようです
これは
表示設定にもよるのかもしれません
ともかく
これでは
手間がかかってしまいます
ということで
翻訳ツールに入れて使うとすれば
Chrome でPDFを開いて
「HTML形式」で貼り付ける
これが一番都合が良い
ということが分かりました
ちなみにですが…
ブラウザから直接コピペするのではなく
一旦、PDF形式で保存して
あらためてPDFリーダーで開いた場合はどうか?
と思って
実験してみました
これは
Edge、Chrome、Firefox
の3種類ともPDF化が可能で
どれもコピー可能になったのですが
PDFリーダーで見る分には
どれも同じように見えます
しかし
そのPDFリーダーで開いたものを
コピーして
ワードに貼り付けてみると
違いがあったのです!
(どういうわけか)
EdgeとChromeは
変わらないようです
しかし
FirefoxからPDF化したものを
コピーしてワードに貼り付けると
「テキスト形式」で貼り付けたものは
どちらも全く同じでした
しかし
PDFの場合
「リッチテキスト形式」で貼り付けると
Firefoxはちょっと違ったのです
左:ChromeのPDFから貼り付け、右:FirefoxのPDFから貼り付け
Firefoxの方が
行間が詰まっています
あと
フォントが微妙に違うようです
しかし
違いはこれくらいで
どちらも
最後のページまで
1回で貼り付けることができました
では
CATツールで使うにはどうかと言うと…
PDFにすると
今度はChromeでも
1行1行改行になってしまい
CATツールでは使えない形になってしまいました
ということで
結論は…
ロックされていてコピーできないPDFファイルを
コピーするには
翻訳CATツールを使う目的の場合は
ChromeにPDFをドロップして
ブラウザから直接コピーして
「HTML形式」で貼り付ける
というのが
一番良いようです
今回実験に使用している
元のPDFファイルですが
こんな感じです
本来なら
この写真などもレイアウトのまま
再現できると言いのですが
PDFをコピーする方法では
今日紹介した程度が限界です
実際に翻訳の仕事をする際は
今はこのようなレイアウトすべてを再現できるソフトがあり
ほぼこのままの状態で
翻訳文を出せます
ただ
私の手元にはそのソフトがないので
コピペするのが精いっぱい
PDF化して「リッチテキスト形式」でやると
文字カラーは再現されるので
それは良い点なんですよね
それでも
すべて改行されてしまうのは
CATツールではいただけないので
やむなく
私はベタ打ち形式の
Chrome HTML形式貼り付けを
選んだのでした
(参考までに)
このブログをお読みの
ほとんどの方には
参考にならないかもしれませんが
万が一
1人でも参考にしていただける人がいらっしゃれば
幸いです
長々と最後までお付き合いくださり
ありがとうございました
このブログは
にほんブログ村のランキングに参加しています
よろしければ
下のバナーをぽちっとクリックして
投票もお願いします
ありがとうございます
ランキングに参加しています!クリックして投票をお願いします。
このブログでは
私の体験や実例を通して
翻訳者が日々の業務をどのようにすすめ
どのようにリスク管理をすれば
収入や効率のアップや
翻訳者として成功することができるかの
ヒントやアイデアをご紹介しています
フォロー、いいねなども
よろしくお願いします
励みになります
━─━─━─━─━─
丸山のプロフィールはこちらをご覧下さい。
━─━─━─━─━─
◆Twitter◆
丸山清志 🇯🇵『WHOLE』(コリン・キャンベル著)翻訳者/Seishi Maruyamaさん (@marusan_jp) / Twitter
◆Instagram◆
拙訳書『WHOLE がんとあらゆる生活習慣病を予防する最先端栄養学』
T・コリン・キャンベル、ハワード・ジェイコブソン 著 鈴木晴恵 監修 丸山清志 翻訳
絶賛発売中!