データセット9から何千ものファイルがすでに削除されています。アーカイブを取得するのは素晴らしい。 | 檸檬瘉備忘録 (this and that)

檸檬瘉備忘録 (this and that)

私的な遊び文章。自分メモ。今のところ映画の話が多い。基本的に知識は深くなく、軽くて浅いです。おバカB級ホラーの感想で始めた、あれこれ。

 

 

 

データセット9から何千ものファイルがすでに削除されています

 

VOL00009.OPTファイル(データセット9の元の.zipから)を確認し

重複を削除すると、ユニークなファイル名のファイルが

約531,307個あります。optファイルの例の内容:

EFTA00039025,VOL00009,IMAGES\0001\EFTA00039025.pdf,Y,,,12

私はスクリプトを使ってそれらをダウンロードしており

162kファイルの中に約1.8kファイルが「見つかりません」

と表示されていますが、IDはOPTファイルに存在します。


ここに EFTA and ID.pdf を追加すると、ファイルはウェブサイトで

「ページが見つかりません」と表示されるため、おそらく削除されたと思われます

 

 

彼らはそれらを削除したか、または文書を公開しなかった。

 DOJ は、公開しない数百万のファイルがあると述べており

リリース作業を終えたとのことです。

私の考えでは、かなり違法だと思います。

 

 

4 か月前

 

アーカイブリンクを取得するのは素晴らしい仕事です。

この投稿をしなければ、多分見逃されていたでしょう。ありがとう。

 

4 か月前

 

誰か、彼らが削除を始める前の完全なセットを持っている人はいませんか?

もしそうなら、どのように共有できますか?