বিশিষ্ট লাইব্রেরিয়ান ও পরামর্শক গ্যারি প্রাইস শুরু করেছেন দ্য রিসার্চ ডেস্ক নামের এই ফিচার। তিনি লেখালেখি করেন লাইব্রেরি জার্নালের ব্লগ ইনফোডকেট-এ। গ্যারি, জিআইজেএন-এর পাঠকদের পরিচয় করিয়ে দেবেন বিশ্বজুড়ে ছড়িয়ে থাকা ডাটাবেজ, ডিজিটাল টুল ও ডকুমেন্টের সঙ্গে।
ইনফোডকেট (@infodocket) শুরু করার আগে গ্যারি ছিলেন রিসোর্সশেল্ফ ও ডকুটিকারের সহ-প্রতিষ্ঠাতা। জ্যেষ্ঠ সম্পাদক হিসেবে কাজ করেছেন ১০ বছর ধরে। আস্ক ডট কমে তিনি কাজ করেছেন অনলাইন ইনফরমেশন সার্ভিসের ডিরেক্টর হিসেবে। দ্য ইনভিজিবল ওয়েব বইয়ের এই সহ-লেখক, কন্ট্রিবিউটিং এডিটর হিসেবে কাজ করেছেন সার্চ ইঞ্জিন জার্নালেও।
ইন্টারনেট আর্কাইভের অনেকগুলো সেবার মধ্যে একটি হলো দ্য ওয়েব্যাক মেশিন। ইন্টারনেটকে যারা গবেষণার কাজে ব্যবহার করেন তাদের জন্য এটা খুবই উপকারী ও গুরুত্বপূর্ণ টুল।
কেন?
এখন পর্যন্ত জনগণের জন্য উন্মুক্ত সবচেয়ে বড় ওয়েবপেইজ আর্কাইভ এই ওয়েব্যাক মেশিন (১৯৯৬ থেকে ২০১৫ সালের জানুয়ারি পর্যন্ত ৪৩৫ বিলিয়নের বেশি পেইজ আছে এখানে)। এটা ছাড়া, ইন্টারনেটের পুরোনো কন্টেন্ট খুঁজে পাওয়া এবং সেটা ব্যবহার করা প্রায় অসম্ভবই হয়ে পড়ত। আপনাকে পুরোনো কন্টেন্টের জন্য যোগাযোগ করতে হতো সেই সাইটের ওয়েবমাস্টারের সঙ্গে। আর জিজ্ঞাস করতে হতো, আপনার কাঙ্ক্ষিত পেইজের কপি তাদের কাছে আছে কিনা।
তবে ওয়েব্যাক মেশিন ব্যবহারের কিছু সীমাবদ্ধতাও আছে। এর মধ্যে একটি হলো এখানে কিওয়ার্ড ধরে সার্চ করা যায় না। আর প্রতিটি পেইজের প্রতিদিনের কন্টেন্ট যে এখানে পাবেন তা-ও নয়। কারণ, যে ওয়েব ক্রলার কন্টেন্ট আর্কাইভ করে, সেটি একই পেইজ প্রতিনিয়ত ভিজিট করে না।
৪৩৫ বিলিয়ন ওয়েবপেইজ থেকে কিওয়ার্ড দিয়ে সার্চ করতে পারলে দারুন হতো। ভবিষ্যতে হয়তো সেটাও আমরা দেখতে পাব। কিন্তু তার আগ পর্যন্ত এই ওয়েব্যাক মেশিনই সমাধান। এটি ব্যবহার করে যে কোনো ওয়েবপেইজ বা পিডিএফ লিংক সহজে আর্কাইভ করে ফেলা সম্ভব।
এই সুবিধা চালু হয়েছে বেশ কয়েক বছর আগে, কিন্তু অনেক ব্যবহারকারীর কাছেই তা অজানা থেকে গেছে।
এতে দু’টি সুবিধা। একদিকে ওয়েব্যাক মেশিন ব্যবহার করে আপনি ইন্টারনেটের যেকোনো কন্টেন্ট বিনাপয়সায় আর্কাইভ করছেন। আর এই কাজ করতে গিয়ে আপনি তাদের ডেটাবেজকেও সমৃদ্ধ করছেন।
এবার ওয়েব্যাক মেশিনের ডিরেক্টর মার্ক গ্রাহামের ২০১৮ সালে দেওয়া এক অডিও প্রেজেন্টেশন থেকে জেনে নেওয়া যাক, কীভাবে কাজটি করবেন।
কীভাবে এটা কাজ করে
১. শুরুতেই চলে যান দ্য ওয়েব্যাক মেশিনের হোমপেইজে: http://web.archive.org
২. নিচে ডানদিকে ‘সেভ পেইজ নাও’ বাটনটি খুঁজে নিন।
৩. আরেকটি ব্রাউজার ট্যাব বা উইন্ডো থেকে যে পেইজ বা পিডিএফ আপনি আর্কাইভ করতে চান, সেটা কপি করুন।
৪. এবার ফিরে আসুন ’সেভ পেইজ নাও’ বক্সে আর কপি করা লিংকটি পেস্ট করুন এবং সবশেষে ক্লিক করুন ‘সেভ পেইজ’ বাটনটি। ব্যাস, কাজ শেষ।
৫. কয়েক মুহূর্তের ভেতরেই একটা বক্স চলে আসবে যেখানে আপনি পেয়ে যাবেন সেই পেইজ বা পিডিএফের জন্য তৈরি নির্দিষ্ট লিংক।
৬. পেইজটি কবে-কখন আর্কাইভ করা হয়েছে, সেটা আপনি দেখতে পাবেন লিংক থেকে। একই সঙ্গে ওয়েব্যাক পেইজে আপনি দেখতে পাবেন এই নির্দিষ্ট ইউআরএল-এর অন্য কোনো কপিও আছে কিনা।
আরো সহজ প্রক্রিয়া
এই পুরো প্রক্রিয়াটা বাদ দিয়ে আরো সহজ প্রক্রিয়ায় আপনি কাজটা করতে পারবেন। এজন্য প্রয়োজন হবে একটা বুকমার্কলেট। যা দিয়ে এই আর্কাইভিং প্রক্রিয়াটা সম্পন্ন করা যাবে একটা ক্লিকে। এখান থেকে নিয়ে নিতে পারেন বুকমার্কলেটটি।
ওয়েব্যাক দিয়ে আপনি কী আর্কাইভ করতে পারবেন না?
ওয়েব্যাক মেশিন Robots.txt ফাইলের মানদণ্ড মেনে চলে। আর এটি সম্পৃক্ত আছে এমন কোনো পেইজ, ডকুমেন্ট বা সার্ভারে তারা ক্রল করে না। ইন্টারনেট আর্কাইভের প্রশ্নোত্তর থেকে এবিষয়ে ব্যাখ্যা পাবেন। আরো কিছু সম্ভাব্য কারণে পেইজ আর্কাইভ করা না-ও যেতে পারে। যেমন, জাভাস্ক্রিপ্ট ও পাসওয়ার্ডযুক্ত পেইজ। এ নিয়ে কিছু কথা পড়ুন এখানে।
ভবিষ্যতের পোস্টগুলোতে আমরা অন্যান্য ওয়েব আর্কাইভিং টুল, সেবা ও স্ট্র্যাটেজি নিয়ে আলোচনা করব।
বোনাস! কিভাবে বুঝে নেওয়া যায় ওয়েব্যাক মেশিনের ইউআরএল
প্রতিটা ওয়েব্যাক মেশিন ইউআরএলে একদম পুঙ্খানুপুঙ্খভাবে (সেকেন্ড পর্যন্ত) দেওয়া থাকে যে কবে এই পেইজটি ক্রল ও আর্কাইভ করা হয়েছে। উদাহরণের জন্য একটা ইউআরএল ভেঙ্গে দেখানো যাক।
http://web.archive.org/web/20150119215911/http://gijn.org
২০১৫- সাল
০১- মাস
১৯- তারিখ
২১:৫৯:১১- এই সময়ে পেইজটা ক্রল ও আর্কাইভ করা হয়েছে।
/GIJN.org এই ওয়েবপেইজটি আর্কাইভ করা হয়েছে।
গ্যারি প্রাইস (gprice@mediasourceinc.com) একজন লাইব্রেরিয়ান, লেখক, পরামর্শক ও ওয়াশিংটনভিত্তিক বিভিন্ন সম্মেলনের নিয়মিত বক্তা। তিনি লেখালেখি করেন লাইব্রেরি জার্নালের ব্লগ ইনফোডকেট-এ (@infodocket)। ছিলেন রিসোর্সশেল্ফ ও ডকুটিকারের সহ-প্রতিষ্ঠাতা। এর আগে গ্যারি কন্ট্রিবিউটিং এডিটর হিসেবে কাজ করেছেন সার্চ ইঞ্জিন ল্যান্ডে। ছিলেন আস্ক ডট কমের অনলাইন ইনফরমেশন সাভিসেস-এর ডিরেক্টর।