রিসার্চ ডেস্ক: ওয়েব্যাক মেশিনের রহস্য

English

sketch gary বিশিষ্ট লাইব্রেরিয়ান ও পরামর্শক গ্যারি প্রাইস শুরু করেছেন দ্য রিসার্চ ডেস্ক নামের এই ফিচার। তিনি লেখালেখি করেন লাইব্রেরি জার্নালের ব্লগ ইনফোডকেট-এ। গ্যারি, জিআইজেএন-এর পাঠকদের পরিচয় করিয়ে দেবেন বিশ্বজুড়ে ছড়িয়ে থাকা ডাটাবেজ, ডিজিটাল টুল ও ডকুমেন্টের সঙ্গে।

ইনফোডকেট (@infodocket) শুরু করার আগে গ্যারি ছিলেন রিসোর্সশেল্ফ ও ডকুটিকারের সহ-প্রতিষ্ঠাতা। জ্যেষ্ঠ সম্পাদক হিসেবে কাজ করেছেন ১০ বছর ধরে। আস্ক ডট কমে তিনি কাজ করেছেন অনলাইন ইনফরমেশন সার্ভিসের ডিরেক্টর হিসেবে। দ্য ইনভিজিবল ওয়েব বইয়ের এই সহ-লেখক, কন্ট্রিবিউটিং এডিটর হিসেবে কাজ করেছেন সার্চ ইঞ্জিন জার্নালেও


red tel booth time machine3ইন্টারনেট আর্কাইভের অনেকগুলো সেবার মধ্যে একটি হলো দ্য ওয়েব্যাক মেশিন। ইন্টারনেটকে যারা গবেষণার কাজে ব্যবহার করেন তাদের জন্য এটা খুবই ‍উপকারী ও গুরুত্বপূর্ণ টুল।

কেন?

এখন পর্যন্ত জনগণের জন্য উন্মুক্ত সবচেয়ে বড় ওয়েবপেইজ আর্কাইভ এই ওয়েব্যাক মেশিন (১৯৯৬ থেকে ২০১৫ সালের জানুয়ারি পর্যন্ত ৪৩৫ বিলিয়নের বেশি পেইজ আছে এখানে)। এটা ছাড়া, ইন্টারনেটের পুরোনো কন্টেন্ট খুঁজে পাওয়া এবং সেটা ব্যবহার করা প্রায় অসম্ভবই হয়ে পড়ত। আপনাকে পুরোনো কন্টেন্টের জন্য যোগাযোগ করতে হতো সেই সাইটের ওয়েবমাস্টারের সঙ্গে। আর জিজ্ঞাস করতে হতো, আপনার কাঙ্ক্ষিত পেইজের কপি তাদের কাছে আছে কিনা।

তবে ওয়েব্যাক মেশিন ব্যবহারের কিছু সীমাবদ্ধতাও আছে। এর মধ্যে একটি হলো এখানে কিওয়ার্ড ধরে সার্চ করা যায় না। আর প্রতিটি পেইজের প্রতিদিনের কন্টেন্ট যে এখানে পাবেন তা-ও নয়। কারণ, যে ওয়েব ক্রলার কন্টেন্ট আর্কাইভ করে, সেটি একই পেইজ প্রতিনিয়ত ভিজিট করে না।

৪৩৫ বিলিয়ন ওয়েবপেইজ থেকে কিওয়ার্ড দিয়ে সার্চ করতে পারলে দারুন হতো। ভবিষ্যতে হয়তো সেটাও আমরা দেখতে পাব। কিন্তু তার আগ পর্যন্ত এই ওয়েব্যাক মেশিনই সমাধান। এটি ব্যবহার করে যে কোনো ওয়েবপেইজ বা পিডিএফ লিংক সহজে আর্কাইভ করে ফেলা সম্ভব।

এই সুবিধা চালু হয়েছে বেশ কয়েক বছর আগে, কিন্তু অনেক ব্যবহারকারীর কাছেই তা অজানা থেকে গেছে।

এতে দু’টি সুবিধা। একদিকে ওয়েব্যাক মেশিন ব্যবহার করে আপনি ইন্টারনেটের যেকোনো কন্টেন্ট  বিনাপয়সায় আর্কাইভ করছেন। আর এই কাজ করতে গিয়ে আপনি তাদের ডেটাবেজকেও সমৃদ্ধ করছেন।

এবার ওয়েব্যাক মেশিনের ডিরেক্টর মার্ক গ্রাহামের ২০১৮ সালে দেওয়া এক অডিও প্রেজেন্টেশন থেকে জেনে নেওয়া যাক, কীভাবে কাজটি করবেন।

কীভাবে এটা কাজ করে

১. শুরুতেই চলে যান দ্য ওয়েব্যাক মেশিনের হোমপেইজে: http://web.archive.org

২. নিচে ডানদিকে ‘সেভ পেইজ নাও’ বাটনটি খুঁজে নিন।

2015-01-19_16-14-36

৩. আরেকটি ব্রাউজার ট্যাব বা উইন্ডো থেকে যে পেইজ বা পিডিএফ আপনি আর্কাইভ করতে চান, সেটা কপি করুন।

৪. এবার ফিরে আসুন ’সেভ পেইজ নাও’ বক্সে আর কপি করা লিংকটি পেস্ট করুন এবং সবশেষে ক্লিক করুন ‘সেভ পেইজ’ বাটনটি। ব্যাস, কাজ শেষ।

৫. কয়েক মুহূর্তের ভেতরেই একটা বক্স চলে আসবে যেখানে আপনি পেয়ে যাবেন সেই পেইজ বা পিডিএফের জন্য তৈরি নির্দিষ্ট লিংক।

2015-01-19_17-00-22

৬. পেইজটি কবে-কখন আর্কাইভ করা হয়েছে, সেটা আপনি দেখতে পাবেন লিংক থেকে। একই সঙ্গে ওয়েব্যাক পেইজে আপনি দেখতে পাবেন এই নির্দিষ্ট ইউআরএল-এর অন্য কোনো কপিও আছে কিনা।

2015-01-19_17-03-18

আরো সহজ প্রক্রিয়া

এই পুরো প্রক্রিয়াটা বাদ দিয়ে আরো সহজ প্রক্রিয়ায় আপনি কাজটা করতে পারবেন। এজন্য প্রয়োজন হবে একটা বুকমার্কলেট। যা দিয়ে এই আর্কাইভিং প্রক্রিয়াটা সম্পন্ন করা যাবে একটা ক্লিকে। এখান থেকে নিয়ে নিতে পারেন বুকমার্কলেটটি

ওয়েব্যাক দিয়ে আপনি কী আর্কাইভ করতে পারবেন না?

ওয়েব্যাক মেশিন Robots.txt ফাইলের মানদণ্ড মেনে চলে। আর এটি সম্পৃক্ত আছে এমন কোনো পেইজ, ডকুমেন্ট বা সার্ভারে তারা ক্রল করে না। ইন্টারনেট আর্কাইভের প্রশ্নোত্তর থেকে এবিষয়ে ব্যাখ্যা পাবেন। আরো কিছু সম্ভাব্য কারণে পেইজ আর্কাইভ করা না-ও যেতে পারে। যেমন, জাভাস্ক্রিপ্ট ও পাসওয়ার্ডযুক্ত পেইজ। এ নিয়ে কিছু কথা পড়ুন এখানে

ভবিষ্যতের পোস্টগুলোতে আমরা অন্যান্য ওয়েব আর্কাইভিং টুল, সেবা ও স্ট্র্যাটেজি নিয়ে আলোচনা করব।

বোনাস! কিভাবে বুঝে নেওয়া যায় ওয়েব্যাক মেশিনের ইউআরএল

প্রতিটা ওয়েব্যাক মেশিন ইউআরএলে একদম পুঙ্খানুপুঙ্খভাবে (সেকেন্ড পর্যন্ত) দেওয়া থাকে যে কবে এই পেইজটি ক্রল ও আর্কাইভ করা হয়েছে। উদাহরণের জন্য একটা ইউআরএল ভেঙ্গে দেখানো যাক।

http://web.archive.org/web/20150119215911/http://gijn.org

২০১৫- সাল

০১- মাস

১৯- তারিখ

২১:৫৯:১১- এই সময়ে পেইজটা ক্রল ও আর্কাইভ করা হয়েছে।

/GIJN.org এই ওয়েবপেইজটি আর্কাইভ করা হয়েছে।


গ্যারি প্রাইস (gprice@mediasourceinc.com) একজন লাইব্রেরিয়ান, লেখক, পরামর্শক ও ওয়াশিংটনভিত্তিক বিভিন্ন সম্মেলনের নিয়মিত বক্তা।  তিনি  লেখালেখি করেন লাইব্রেরি জার্নালের ব্লগ ইনফোডকেট-এ (@infodocket) ছিলেন রিসোর্সশেল্ফ ও ডকুটিকারের সহ-প্রতিষ্ঠাতা। এর আগে গ্যারি কন্ট্রিবিউটিং এডিটর হিসেবে কাজ করেছেন সার্চ ইঞ্জিন ল্যান্ডে। ছিলেন আস্ক ডট কমের অনলাইন ইনফরমেশন সাভিসেস-এর ডিরেক্টর।