What is Big Data – Characteristics, Types, Benefits & Examples

Abhinav is a Data Analyst at UpGrad. He’s an experienced Data Analyst with a demonstrated history of working in the higher education industry. Strong information technology professional skilled in Python,…

Lately the term ‘Big Data’ has been under the limelight, but not many people know what is big data. Businesses, governmental institutions, HCPs (Health Care Providers), and financial as well as academic institutions, are all leveraging the power of Big Data to enhance business prospects along with improved customer experience.

IBM maintains that businesses around the world generate nearly 2.5 quintillion bytes of data daily! Almost 90% of the global data has been produced in the last 2 years alone.
So we know for sure that Big Data has penetrated almost every industry today and is a dominant driving force behind the success of enterprises and organizations across the globe. But, at this point, it is important to know what is big data? Lets talk about big data, characteristics of big data, types of big data and a lot more.

What is Big Data? Gartner Definition

This definition clearly answers the “What is Big Data?” question – Big Data refers to complex and large data sets that have to be processed and analyzed to uncover valuable information that can benefit businesses and organizations.

However, there are certain basic tenets of Big Data that will make it even simpler to answer what is Big Data:

Structured

Structured is one of the types of big data and By structured data, we mean data that can be processed, stored, and retrieved in a fixed format. It refers to highly organized information that can be readily and seamlessly stored and accessed from a database by simple search engine algorithms. For instance, the employee table in a company database will be structured as the employee details, their job positions, their salaries, etc., will be present in an organized manner.

Unstructured

Unstructured data refers to the data that lacks any specific form or structure whatsoever. This makes it very difficult and time-consuming to process and analyze unstructured data. Email is an example of unstructured data. Structured and unstructured are two important types of big data.

Semi-structured

Semi structured is the third type of big data. Semi-structured data pertains to the data containing both the formats mentioned above, that is, structured and unstructured data. To be precise, it refers to the data that although has not been classified under a particular repository (database), yet contains vital information or tags that segregate individual elements within the data. Thus we come to the end of types of data. Lets discuss the characteristics of data.

Become a Big Data Engineer With IIITB.

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Big Data Analytics Tools

  • Ecommerce – Predicting customer trends and optimizing prices are a few of the ways e-commerce uses Big Data analytics
  • Marketing – Big Data analytics helps to drive high ROI marketing campaigns, which result in improved sales
  • Education – Used to develop new and improve existing courses based on market requirements
  • Healthcare – With the help of a patient’s medical history, Big Data analytics is used to predict how likely they are to have health issues
  • Media and entertainment – Used to understand the demand of shows, movies, songs, and more to deliver a personalized recommendation list to its users
  • Banking – Customer income and spending patterns help to predict the likelihood of choosing various banking offers, like loans and credit cards
  • Telecommunications – Used to forecast network capacity and improve customer experience
  • Government – Big Data analytics helps governments in law enforcement, among other things

1. What is big data in simple words?

2. What is the meaning of big data analytics?

3. Can I learn big data for free?

4. Is it worth it to learn big data?

5. Is coding required for big data?

6. Is big data a good career?

Resources:

https://www.upgrad.com/blog/what-is-big-data-types-characteristics-benefits-and-examples/
https://rb.ru/howto/chto-takoe-big-data/
https://www.simplilearn.com/what-is-big-data-analytics-article
Big data

Hampir setiap orang menggunakan yang namanya media sosial untuk mengakses berbagai informasi dan membagikan aktivitas keseharian pribadi. Tentunya, banyak yang mengupload foto, video maupun teks ke dalam aplikasi media sosial tersebut. Semua informasi tersebut merupakan jenis data yang akan terekam dan tersimpan dalam sistem basis data dengan kapasitas besar.

Big Data Trends in 2021 | The Future of Big Data

Pengenalan Big Data: Pengertian Fungsi, Manfaat, dan Tools

Big data saat ini sudah tidak asing lagi ditelinga pengembang perangkat lunak dengan skala proyek yang luas. Penggunaan basis data sangat diperlukan untuk dapat mengelola, menyimpan, memanajemen segala informasi yang berbentuk data secara terstruktur dan tersistem. Banyak perusahaan besar yang membutuhkan kapasitas data sangat besar untuk menyimpan data terkait perusahaan tersebut.

Untuk proyek dengan skala kecil, pada umumnya cukup dengan menggunakan bantuan database yang bersifat open source seperti MySQL, PostGre, MariaDB, dan lain – lain. Akan tetapi, untuk kebutuhan software yang menampung berbagai jenis data, maka dapat mengakibatkan proses penanganan data menjadi lambat dan kurang efektif. Langkah terbaik untuk menangani masalah tersebut adalah dengan menggunakan big data.

Pengertian Big Data

Big data adalah kumpulan proses yang terdiri volume data dalam jumlah besar yang terstruktur maupun tidak terstruktur dan digunakan untuk membantu kegiatan bisnis. Big data sendiri merupakan pengembangan dari sistem database pada umumnya. Yang membedakan disini adalah proses kecepatan, volume, dan jenis data yang tersedia lebih banyak dan bervariatif daripada DBMS (Database Management System) pada umumnya.

1. Volume

2. Velocity

Kecepatan transfer data juga sangat berpengaruh dalam proses pengiriman data dengan efektif dan stabil. Big data memiliki kecepatan yang memungkinkan untuk dapat diterima secara langsung (real-time). Kecepatan tertinggi yang bisa didapatkan langsung melalui aliran data ke memori apabila dibandingkan dengan yang ditulis pada sebuah disk.

3. Variety

Jenis variasi data yang dimiliki oleh big data lebih banyak daripada menggunakan sistem database SQL. Jenis data yang masih bersifat tradisional, lebih terstruktur daripada data yang belum terstruktur. Contohnya adalah teks, audio, dan video merupakan data yang belum terdefinisikan secara langsung dan harus melalui beberapa tahap untuk dapat diproses dalam sebuah database.

Selain dari 3V diatas, masih ada 2V lain yang merupakan bagian dari big data sendiri. Yaitu Value dan Veracity. Untuk value, merupakan nilai atau aliran data yang tidak teratur dan konsisten dalam beberapa kondisi dan periode. Hal tersebut dapat terjadi pada suatu kasus dimana terdapat lonjakan data yang besar sehingga, akan memproses data dengan resource memori yang lebih besar.

Veracity merupakan bentuk pembenaran suatu data. Jadi, mengacu pada kualitas data tersebut, dapat berasal dari berbagai sumber. Perlu adanya proses untuk menghubungkan dan mengkorelasikan beberapa hubungan data. Jika tidak ada relasi yang baik, maka dapat menimbulkan kontrol yang lepas kendali.

The growth of data fabric technology

Another important development that focuses on expanding the space available for digital transformation in an enterprise, data fabrics are progressively developing in the cloud and being adopted by organizations that need additional real estate and increased accessibility for their growing pools of big data.

Robert Eve, former senior data management strategist at TIBCO , a top-ranked data analytics and management platform, emphasizes the importance of data fabrics in organizations that crave both real-time analytics and data democratization:

“Data fabrics — modern distributed data architectures, provide enterprises with a competitive advantage that allows them to be most impactful with their data,” Eve said. “For example, it accelerates time to value by unlocking distributed on-premises, cloud, and hybrid cloud data — no matter where it resides — and delivering it at the pace of business. The technology also democratizes data access to arm business users with all the data they need to make faster and more accurate business decisions.

“In an ever-changing regulatory landscape, data fabrics allow enterprises to embrace new data and analytics technology advancements, while ensuring the right data is securely provided. It’s also nimble and allows for organizations to embrace new data and analytics technology advancements such as data science, real-time data, and the cloud faster to stay ahead of competition.”

Data fabric technology is also trending in the world of artificial intelligence (AI) and machine learning (ML) automation for big data, primarily because the distributed design discourages the data silos that make data annotation and machine learning more difficult.

Scott Gnau, VP of data platforms at InterSystems , a data analytics and integration company, describes this functionality in smart data fabrics, explaining that data fabrics are key to the data quality necessary for automation:

“The next generation of innovation and automation must be built on strong data foundations,” Gnau said. “Emerging technologies, such as artificial intelligence and machine learning, require a large volume of current, clean, and accurate data from different business silos to function.

“Yet, seamless access across a global company’s multiple data silos is extremely difficult and with more and more data pouring in from disparate sources, organizations are in need of architectures that bring the composable stack and distributed data together for actionable real-time insights.

“Organizations of all sizes are turning to smart data fabrics as it presents one such reference architecture that provides the capabilities needed to discover, connect, integrate, transform, analyze, manage, utilize, and store data assets to enable the business to meet its myriad of business goals faster and with less complexity than previous approaches, such as data lakes.”

Ethical customer data collection

Much of the increase in big data over the years has come in the form of consumer data or data that is constantly connected to consumers while they use tech such as streaming devices, IoT devices, and social media.

Data regulations like GDPR require organizations to handle this personal data with care and compliance, but compliance becomes incredibly complicated when companies don’t know where their data is coming from or what sensitive data is stored in their systems. That’s why more companies are relying on software and best practices that emphasize ethical customer data collection.

It’s also important to note that many larger organizations that have historically collected and sold personal data are changing their approach, making consumer data less accessible and more expensive to purchase. Many smaller companies are now opting into first-party data sourcing, or collecting their own data, not only to ensure compliance with data laws and maintain data quality but also for cost savings.

“When something becomes more scarce, what happens to the price? That’s right, it goes up. So, as the next few years unfold, expect to see first party data be bigger than ever. That’s to say, if companies want data, they will likely have to collect it themselves.”

Applications of Big Data

Big Data for Financial Services

Big Data in Communications

Big Data for Retail

Healthcare

Travel

Gaming

Energy Management

Post Graduate Program in Data Analytics

Data has become the engine that drives almost all of today’s activities, no matter if they’re in the fields of healthcare, technology, education, research, or retail. Additionally, business orientation has evolved from a product-focused model to a data-focused one. Companies of all sizes value information, no matter how trivial that data may seem at first glance. Information analysis and visualization helps marketers and analysts acquire actionable business insights. This demand has created a need for experts who can pull useful, meaningful insights out of the terabytes of data available today.

While big data helps banking, retail, and other industries by supplying important technologies like fraud-detection and operational analysis systems, data analytics enables industries like banking, energy management, healthcare, travel, and transport develop new advancements by utilizing historical, and data-based trend analysis. Data science expands on that in more ways by enabling companies to explore new strategies in scientific discovery, medical advancements, web development, digital advertisements, ecommerce – literally, anything you can imagine.

What Does a Data Scientist, Big Data Professional and Data Analyst Do?

Data scientists work closely with business stakeholders to gain an understanding of their goals, and figure out how to use data to meet those goals. They are responsible for cleaning and organizing data, collecting data sets, mining data for patterns, refining algorithms, integrating and storing data, and building training sets.

As for Big Data professionals, well, the term “Big Data” is no longer a “big” thing when describing a career or job position. Big Data professionals are now known more as analytics professionals who review, analyze, and report on the massive amounts of data stored and maintained by the company. These professionals identify the challenges of Big Data and devise solutions, employ fundamental statistical techniques, improve the quality of data for reporting and analysis, and access, modify, and manipulate the data.

If it seems that the three occupations have a significant amount of overlap, that’s because they do! Each business has its own structure and procedures, and you are bound to see some blurring of the distinctions between these positions. Perhaps, in some companies, the data scientist wears multiple hats.

Resources:

https://www.sekawanmedia.co.id/blog/pengertian-big-data/
https://www.datamation.com/featured/big-data-trends/
https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article
Big data

ซึ่งจะเป็นข้อมูลจากทุกฝ่ายไม่ว่าจะเป็นการเงิน ฝ่ายขาย การตลาด ลูกค้าสัมพันธ์ บัญชี รวมถึงตัวหนังสือที่อาจเป็นบทสนทนาระหว่างแผนก หรือระหว่างบริษัท ซึ่งอาจเป็นข้อความจาก Social Media รวมถึง URLs ที่มีข้อมูลเข้ามาอยู่ในทุกวัน

Why is big data analytics important?

Data is woven into the everyday fabric of our lives. With the rise of mobile, social media, and smart technologies associated with the Internet of Things (IoT), we now transmit more data than ever before—and at a dizzying speed. Thanks to big data analytics, organizations can now use that information to rapidly improve the way they work, think, and provide value to their customers. With the assistance of tools and applications, big data can help you gain insights, optimize operations, and predict future outcomes.

This ability to derive insights to inform better decision making is why big data is important. It’s how a retailer might hone their targeted ad campaigns, or how a wholesaler might resolve bottlenecks in the supply chain. It’s also how a health care provider might discover new options for clinical care based on patient data trends. Big data analytics enables a more holistic, data-driven approach to decision-making, in turn promoting growth, efficiency, and innovation.

How does big data analytics work?

Analytics solutions glean insights and predict outcomes by analyzing data sets. However, in order for the data to be successfully analyzed, it must first be stored, organized, and cleaned by a series of applications in an integrated, step-by-step preparation process:

  • Collect. The data, which comes in structured, semi-structured, and unstructured forms, is collected from multiple sources across web, mobile, and the cloud. It is then stored in a repository—a data lake or data warehouse—in preparation to be processed.
  • Process. During the processing phase, the stored data is verified, sorted, and filtered, which prepares it for further use and improves the performance of queries.
  • Scrub. After processing, the data is then scrubbed. Conflicts, redundancies, invalid or incomplete fields, and formatting errors within the data set are corrected and cleaned.
  • Analyze. The data is now ready to be analyzed. Analyzing big data is accomplished through tools and technologies such as data mining, AI, predictive analytics, machine learning, and statistical analysis, which help define and predict patterns and behaviors in the data.

กระบวนการทำงานของ Big Data

กระบวนการทำงานของ Big Data

1. จัดเก็บข้อมูล (Storage)

เป็นขั้นตอนการจัดเก็บรวบรวมข้อมูลทั้งหมดจากแหล่งต่างๆ ไม่ว่าจะเป็นข้อมูลที่มีคุณภาพรวมถึงข้อมูลที่คาดว่าอาจจะเป็นประโยชน์ ไม่ว่าจะเป็นข้อมูลที่เป็นตัวอักษร ไฟล์เอกสาร ไฟล์รูปภาพ ไฟล์วีดีโอ ไฟล์เสียงที่ถูกบันทึก จะถูกเก็บรวบรวมไว้ที่นี่

2. การประมวลผลข้อมูล (Processing)

การประมวลผลข้อมูล หลังจากที่นำข้อมูลมารวบรวมไว้ได้ในที่เดียวแล้ว ข้อมูลต่างๆ จะถูกนำไปจัดหมวดหมู่ให้อยู่ในกลุ่มที่มีความเกี่ยวข้องกันหรือความสัมพันธ์ใกล้เคียงกัน ให้ผลลัพธ์คล้ายคลึงกันมากที่สุด แล้วจึงนำมาเปลี่ยนเป็นรูปแบบข้อมูลเพื่อนำเอาข้อมูลที่มีอยู่เหล่านี้เข้าระบบข้อมูลที่ผ่านการประมวลผลแล้ว

3. การวิเคราะห์ข้อมูล (Analyst)

การวิเคราะห์ข้อมูลและนำเสนอข้อมูล หลังจากที่ข้อมูลทั้งหมดได้ถูกจัดกลุ่มและแยกประเภทเรียบร้อยแล้วนั้น ต่อจากนั้นจะนำมาวิเคราะห์หา Pattern ความเกี่ยวข้องกันทั้งหมด ที่อาจมองไม่เห็นได้เลยด้วยตา ไม่ว่าจะเป็นการหา แนวโน้มของการตลาด ความต้องการของลูกค้า กระแสที่อาจเกิดขึ้นได้ในอนาคต และข้อมูลด้านอื่นที่เป็นประโยชน์ และจัดมานำเสนอในรูปแบบต่างๆ ไม่ว่าจะเป็นรูปภาพหรือกราฟ

ประโยชน์ของการใช้ Big Data

  • สามารถเข้าใจลูกค้าได้มากยิ่งขึ้น ด้วยการนำฐานข้อมูลที่มีอยู่ใน Big Data ศึกษาถึงลักษณะพฤติกรรมของผู้บริโภคว่ามีการตัดสินใจในการเลือกสินค้าอย่างไร สามารถนำเสนอสินค้าที่คุณมีอยู่ให้ตรงกับความต้องการของลูกค้าได้หรือไม่ หากไม่มีจะสามารถนำสินค้าชนิดอื่นที่มีอยู่นำไปทดแทนได้หรือไม่
  • สามารถวิเคราะห์ความต้องการของตลาดในอนาคตได้ ข้อมูลต่างๆ ที่ถูกค้นหาในอินเตอร์เน็ต รวมถึงใน Social Media ต่างๆ สามารถนำมารวบรวมได้ ว่ามีอะไรที่ป็นกระแสหรือได้รับความนิยมอยู่ในขณะนั้น ว่ากระแสอะไรที่นำมาค้นหาหรือกล่าวถึงอยู่มากที่สุด ก็สามารถนำข้อมูลนั้นมาวิเคราะห์และวางแผนก่อน หากมีแผนที่ดีและสามารถทำได้อย่างรวดเร็วก็สามารถเป็นผู้นำกระแสได้อย่างไม่ยาก จากการใช้ข้อมูลจาก Big Data
  • การวางแผนในอนาคตมีประสิทธิภาพมากยิ่งขึ้น จากข้อมูลที่มีอยู่สามารถนำผลวิเคราะห์จาก Big Data เข้ามาช่วยประกอบการวางแผนและการตัดสินใจได้เป็นอย่างดี ทั้งในเรื่องของการลดต้นทุน เพิ่มผลผลิต โดยการเก็บข้อมูลต่างๆ ภายในองค์กรเพื่อนำไปวิเคราะห์ไม่ว่าจะเป็น กระบวนการผลิต ข้อมูลการใช้วัตถุดิบ จะทำให้สามารถทราบได้ว่าปัญหาภายในองค์กรมีหรือไม่ต้องปรับปรุงแก้ไขส่วนใด เพื่อที่จะสามารถแก้ไขปัญหาได้อย่างรวดเร็ว เพื่อป้องกันความผิดพลาดในการผลิต
  • คาดการณ์ปัญหาที่อาจเกิดขึ้น จากการนำข้อมูลที่มีจาก Big Data มาคาดการณ์ความต้องการของตลาด ซึ่งนอกจากคาดการณ์ในอนาคตได้แล้วนั้น ก็ยังสามารถนำข้อมูลส่วนนั้นมาวิเคราะห์ต่อยอดได้อีกว่า ในอนาคตนั้นจะมีเหตุการณ์อะไรที่สามารถเกิดขึ้นได้บ้าง ก็สามารถนำข้อมูลส่วนนั้นนำไปวางแผน ปรับนโยบาย วิธีการบริหารองค์กร เพื่อให้สามารถแก้ไขปัญหาได้อย่างรวดเร็วที่อาจเกิดขึ้นได้ในอนาคต
  • ลดงบประมาณในการลงทุนด้าน IT ในอนาคตหลังจากที่นำ Big Data มาใช้ในองค์กรแล้วสามารถลดต้นทุนการใช้งบประมาณในด้าน IT ได้เป็นอย่างดี เนื่องจากสามารถนำข้อมูลที่ได้มาไปใช้ประโยชน์ในด้านอื่นๆ ได้อีกพร้อมยังช่วยลดต้นทุนในการจ้างพนักงานในด้าน IT ได้อีกหลายตำแหน่งที่สามารถใช้ Big Data มาทดแทนได้

หลังจากที่เริ่มต้นใช้ Big Data เข้ามาใช้ในองค์กรแล้วแต่ด้วย Big Data อาจเป็นเทคโนโลยีใหม่ในองค์กร คนในองค์กรอาจจะยังเลือกใช้เทคโนโลยีในรุ่นเก่าที่คุ้นชินมากกว่า เข้ามาแก้ไขปัญหาทำให้การใช้เทคโนโลยี Big Data ในองค์กรไม่สำเร็จ

Các công nghệ đặc biệt dành cho Big data

Hệ sinh thái Hadoop

Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý phân tán các bộ dữ liệu lớn trên các nhóm máy tính sử dụng các mô hình lập trình đơn giản. Nó được thiết kế để mở rộng từ một máy chủ duy nhất sang hàng ngàn máy khác, mỗi máy cung cấp tính toán và lưu trữ cục bộ.

Apache Spark

Spark đã trở thành một trong những khuôn mẫu xử lý big data quan trọng, và có thể được triển khai theo nhiều cách khác nhau. Nó cung cấp các phương thức hỗ trợ đối với Java, Scala, Python (đặc biệt là Anaconda Python distro ), và ngôn ngữ lập trình R ( R đặc biệt phù hợp với big data ) và hỗ trợ SQL , streaming data, machine learning và xử lý đồ thị .

Data lakes

Các yếu tố giúp tăng trưởng data lakes là những phong trào kỹ thuật số và sự phát triển của IoT. Các data lakes được thiết kế để giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu khi có nhu cầu.

NoSQL Databases

Nhưng chúng có những hạn chế như giản đồ cứng nhắc làm cho chúng không phù hợp với một số loại ứng dụng. Cơ sở dữ liệu NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và sự linh hoạt tuyệt vời.

Nhiều cơ sở dữ liệu đã được phát triển bởi các công ty để tìm cách tốt hơn để lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn. Không giống như các cơ sở dữ liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên hàng trăm hoặc hàng ngàn máy chủ.

In-memory databases

Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính (Ram), thay vì HDD, để lưu trữ dữ liệu. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra các kho dữ liệu và các siêu dữ liệu. Đọc thêm Redis là gì?

Resources:

https://azure.microsoft.com/en-us/overview/what-is-big-data-analytics/
https://1stcraft.com/what-is-big-data/
https://topdev.vn/blog/big-data/