معرفی و دانلود کتاب وب اسکرپینگ با پایتون
برای دانلود قانونی کتاب وب اسکرپینگ با پایتون و دسترسی به هزاران کتاب و کتاب صوتی دیگر، اپلیکیشن کتابراه را رایگان نصب کنید.
معرفی کتاب وب اسکرپینگ با پایتون
کتاب وب اسکرپینگ با پایتون اثری از نیما شفیعی رضوانی نژاد و بهاره بهروز است که تلاش میکند مطالب مربوط به برنامهنویسی و کار با وب اسکرپینگ را به مخاطبان علاقهمند آموزش دهد. همانطور که احتمالاً به گوشتان خورده، پایتون در حال حاضر یکی از پرکاربردترین زبانهای برنامهنویسی در دنیا است و وب اسکرپینگ نیز یکی از روشهایی رایج در بهره بردن از قابلیتهای دیجیتال محسوب میشود. این کتاب مهارتهای شما در زمینهی برنامهنویسی پایتون را افزایش میدهد.
دربارهی کتاب وب اسکرپینگ با پایتون
برداشت از وب در واقع به فرایندی اطلاق میشود که طی آن شخص به دریافت داده میپردازد و از وبسایت خروجی میگیرد. برایآنکه بتوان به برداشت از وب دسترسی پیدا کرد و فرایندهای آن را اجرا نمود، ابتدا باید از تعدادی برنامه و الگوریتم کامپیوتری بهره برد. پایتون، برترین زبان برنامهنویسی در جهان، یکی از ابزارهایی است که برنامهنویسان در جهت برداشت از وب استفاده میکنند. پایتون میتواند بهراحتی به بررسی اطلاعات موجود در HTML بپردازد و سپس دادههای مورد نیاز را از وبسایت استخراج کند. کتاب وب اسکرپینگ با پایتون نوشتهی نیما شفیعی رضوانی نژاد و بهاره بهروز سعی میکند تا بهصورت مرحلهبهمرحله اقدامات لازم در این فرایند را به مخاطبان آموزش دهد. این کتاب با نثری کاملاً گیرا نوشته شده و برنامهنویسان از سطح مبتدی تا حرفهای میتوانند از مطالب آن استفاده کنند.
کتاب وب اسکرپینگ با پایتون ابتدا سعی میکند یک تعریف مقدماتی و راهگشا از اسکرپینگ ارائه دهد. در واقع، مؤلفان این کتاب در همان مقدمه برای مخاطبان شرح میدهند که اسکرپینگ اساساً در کجا به کار میآید و چرا باید از آن در موقعیتهای مختلف استفاده کرد. پس از آنکه نیما شفیعی رضوانی نژاد و بهاره بهروز یک معارفهی آموزشی از مبحث ارائه دادند، در بخش دوم به معرفی و شرح اسکرپینگ پیشرفته وب میپردازند. در این بخش، در مورد خواندن اسناد، فرایند تمیزسازی دادههای آلوده، پردازش زبانهای طبیعی، اسکرپینگ جاوا اسکریپت، پردازش تصویر و تشخیص متن و دیگر مباحث مربوطه خواهید خواند. بهطورکلی باید گفت که اگر به دنبال اثری هستید که از صفر تا صد برداشت از وب را با زبانی قابلفهم و آموزشی یاد دهد، کتاب وب اسکرپینگ با پایتون تألیف نیما شفیعی رضوانی نژاد و بهاره بهروز بهترین منبع برای شماست. این کتاب توسط مؤسسه فرهنگی هنری دیباگران تهران عرضه شده است.
کتاب وب اسکرپینگ با پایتون برای چه کسانی مناسب است؟
این اثر به کسانی که در حوزهی طراحی وب، مدیریت سایت و برنامهنویسی پایتون کار میکنند، توصیه میشود.
در بخشی از کتاب وب اسکرپینگ با پایتون میخوانیم
مرورگرها برای اجرای کدهای جاوا اسکریپت و نمایش تصاویر و ترتیب اشیاء در یک قالب قابلدرک برای انسان مناسباند اما آنها بهتنهایی قادر نیستند طیف گستردهای از امکانات وب را در اختیار شما قرار دهند.
وب اسکرپرها در جمعآوری و پردازش مقدار بزرگی از داده سرعت و دقت بالایی دارند. آنها بهجای باز کردن تکبهتک صفحات در یک چشم بههمزدن میتوانند پایگاههای دادهای با هزاران یا حتی میلیونها صفحه را به طور همزمان مشاهده و نتایج آن را در اختیار شما قرار دهند.
علاوهبر این وب اسکرپرها به جاهایی میتوانند دسترسی پیدا کنند که موتورهای جستجوی سنتی نمیتوانند بهراحتی به آنها دسترسی یابند. اگر کلمهای مانند بهترین پروازها به کیش را در گوگل جستجو کنید، تعدادی از تبلیغات و سایتهای محبوب پرواز برای شما نشان داده میشود درحالیکه گوگل فقط درباره محتوای این وبسایتها میداند نه نتایج دقیق جستجویهای مختلفی که در یک برنامه جستجو وارد شده است. بااینحال یک وب اسکرپر کاملاً توسعهیافته میتواند هزینه پرواز به کیش را در یک بازه زمانی از بین میلیونها وبسایت به شما نمایش دهد و به شما بهترین زمان خرید بلیط را بگوید.
فهرست مطالب کتاب
مقدمه ناشر
پیشگفتار
وب اسکرپینگ چیست؟
چرا وب اسکرپینگ؟
درباره این کتاب
بخش اول
ساختار خراشدهندهها
فصل 1: وب اسکرپینگ چیست؟
چه کسی از وب اسکرپینگ استفاده میکند؟
اولین وب خراش شما
معرفی ابزارهای خزش وب
بخش دوم
اسکرپینگ پیشرفته وب
فصل 2: خواندن اسناد
رمزگذاری فایلها
متن
CSV
PDF
docx و Microsoft word
فصل 3: فرایند تمیزسازی دادههای آلوده
تطبیق دادهها (Data Normalization)
تمیز کردن دادهها
پاکسازی دادهها
فصل 4: خواندن و نوشتن زبانهای طبیعی
خلاصهسازی دادهها
مدلهای مارکوف
تجزیه و تحلیل آماری با استفاده از NLTK
تحلیل واژگانی با استفاده از NLIK
منابع یادگیری اضافی
فصل 5: پیمایش از طریق فرمها و ورود به سیستم
کتابخانه requests پایتون
ارسال فایلها و تصاویر
مدیریت ورود و کوکیها
احراز هویت دسترسی اصلی HTTP
مشکلات دیگر فرم
فصل 6: اسکرپینگ جاوااسکریپت
جاوااسکریپت
مقدمه کوتاهی به جاوااسکریپت
کتابخانههای متداول جاوااسکریپت
اجرای جاوااسکریپت در پایتون با Selenium
مدیریت انتقالها
یک نکته آخر در مورد جاوااسکریپت
فصل 7: گشتزنی از طریق APIs
معرفی مختصری از APIها
متدهای HTTP و APIها
اطلاعات بیشتر در مورد پاسخهای API
تجزیه و تحلیل ISON
APIهای غیر مستند
یافتن و مستندکردن APIها به صورت خودکار
ترکیب APIها با منابع داده دیگر
بیشتر در مورد APIها
فصل 8: پردازش تصویر و تشخیص متن
مروری بر کتابخانهها
پردازش متن با قالببندی خوب
تنظیم تصاویر به صورت خودکار
استخراج متن از تصاویر در وبسایتها
آموزش Tesseract و خواندن CAPTCHAها
آموزش Tesseract
دریافت CAPTCHA و ارسال راهحلها
فصل 9: جلوگیری از تلههای اسکرپینگ (Scraping Traps)
یک نکته در مورد اخلاق
شبیه انسان
تنظیم هدرهای HTTP
مدیریت کوکیها با جاوااسکریپت
زمانبندی مهم است
ویژگیهای مشترک امنیتی فرمها
مقادیر فیلد ورودی مخفی
جلوگیری از تله گرهها
چکلیست انسانی
فصل 10: تست وبسایت خود با اسکرپرها
تعریف Unit test
ماژول Unittest پایتون
آزمایش ویکیپدیا
آزمایش با Selenium
تعامل با سایت
گرفتن عکسهای صفحه
Selenium یا unittest؟
فصل 11: پیمایش وب بهصورت موازی
فرآیندها در مقابل نخها
کراولینگ چندنخی
شرایط رقابتی و صفها
ماژول Threading
ماژول پردازش
وب کرالینگ چند پردازشی
ارتباط بین فرآیندها
کرالینگ چند پردازشی - رویکرد دیگری
فصل 12: جمعآوری اطلاعات از راه دور
چرا از سرورهای از راه دور استفاده کنید؟
جلوگیری از مسدودسازی آدرس IP
قابلیت حمل و توسعهپذیری
Tor
(PySocks)
میزبانی از راه دور
فصل 13: قوانین و اخلاق وب کاوی
علائم تجاری، حق نشر، پتنت
قانون کپی رایت
نفوذ به حریم متعلق به دیگران
قانون تقلب و سوءاستفاده کامپیوتری
robots.txt و شرایط خدمات
سه اسکرپر وب
حرکت به جلو
مشخصات کتاب الکترونیک
نام کتاب | کتاب وب اسکرپینگ با پایتون |
نویسنده | نیما شفیعی رضوانی نژاد، بهاره بهروز |
ناشر چاپی | موسسه فرهنگی هنری دیباگران تهران |
سال انتشار | ۱۴۰۳ |
فرمت کتاب | |
تعداد صفحات | 191 |
زبان | فارسی |
شابک | 978-622-218-791-0 |
موضوع کتاب | کتابهای برنامه نویسی پایتون، کتابهای آموزش طراحی وب سایت |