Описание проекта
Дорамы — неотъемлемая часть моей культуры, корейской, поэтому я решила провести анализ именно в этой сфере. Они отражают не только современные тенденции в кинематографе, но и передают культурные ценности, традиции и особенности общества.
К тому же, я огромный любитель корейских дорам, и мне было любопытно исследовать их глубже.
Данные я искала на сайте Kaggle, вбила в поисковик ключевое слово «kdrama» и выбрала «Top 250 Korean Dramas (KDrama) Dataset». Датасет содержит в себе данные из 250 корейских драм, занимающих лидирующие позиции на сайте MyDramaList.
Для визуализации данных я выбрала следующие графики: Гистограмма (определяет количество по определенному показателю); Круговая диаграмма (позволяет сравнить количественные данные в процентном соотношении); Облако слов (визуально показывает частоту употребления слов, в моем случае жанров); Матрица (демонстрирует корреляцию данных); Линейная диаграмма (позволяет проследить тенденцию и динамику данных).
Визуальное решение
Мудборд
Дорамы у меня ассоциируются с домашним уютом, цветущей сакурой и любовью, поэтому хотелось передать такую атмосферу для визуального оформления своего проекта.
Для этого я обратилась к сайту Pinterest и выбрала несколько картинок. После чего в Photoshop вручную подобрала цвета, глядя на референсы, и получились следующие оттенки:
На основе найденных референсов и подобранных цветов я построила графики, чтобы придать проекту визуальную целостность и гармоничность.
Дополнительное редактирование: в Photoshop были составлены коллажи и проведена цветокоррекция изображений.
Обработка данных
Для начала я импортировала необходимые мне библиотеки: kagglehub (библиотека для работы с наборами данных и моделями из Kaggle для загрузки данных), os (для работы с файловой системой и переменными окружения), pandas (для обработки и анализа структурированных табличных данных). Впоследствии я загружала дополнительные библиотеки для анализа данных и формирования графиков. Например, Matplotlib (для визуализации графиков).
После чего считала скачанный csv-файл датасета.
Также в ходе анализа я искала методы в Stackoverflow.
Импорт библиотек и выгрузка данных
Далее почистила дату от нулевых значений и удалила колонки, которые посчитала неактуальными и нерелевантными для анализа.
Чистка данных
График 1
С помощью гистограммы я выявила зависимость количества дорам из топа в определенный год. Оказалось, что более современные дорамы наиболее интересны зрителям.
Так, в 2021 году было снято аж 39 дорам, вошедших в топ 250 самых лучших дорам за 2003-20022 год.
К списку, а также моим персональным рекомендациям относятся «Happiness» и «Mouse».
Гистограмма, показывающая количество дорам из топа, снятых в определенный год
Код к гистограмме о количестве снятых дорам в определенный год
График 2
Круговая диаграмма наглядно показывает распределение дорам из топа по возрастному ограничению.
Большая часть дорам имеет возрастную отметку 15+, то есть сериалы для подростков пользуются наибольшим спросом.
Дополнительное редактирование: в Photoshop фон был отформатирован до прямоугольной формы.
Код к круговой диаграмме о распределении возрастного ограничения
График 3
Благодаря матрице корреляций мне удалось выявить степень влияния рейтинга, количества эпизодов и года выпуска друг от друга.
Отрицательные значения показывает обратную взаимосвязь количества эпизодов с годом выпуска, то есть со временем зрители перестали интересоваться многосерийными дорамами, предпочитая более короткий формат историй.
Остальные значения корреляций незначительны.
Код матрицы
График 4
Большинство дорам совмещают в себе несколько жанров, поэтому я разделила названия жанров и узнала количество уникальных значений каждого. Впоследствии они понадобились мне для построения облака слов и круговой диаграммы.
Расчет уникальных значений жанров
Облако слов по частотности жанра, который встречается в топе
Код для облака слов
Как выяснилось, больше всего встречаются дорамы в жанре романтика, что наглядно показано на круговой диаграмме, их количество составляло 135 штук.
Однако жанр драма визуально практически такого же размера, как и романтика, поэтому я решила вывести в отдельный топ пяти самых популярных жанров.
Дополнительное редактирование: в Photoshop фон был отформатирован до прямоугольной формы.
Как и ожидалось, разница между романтикой и драмой составляет всего 1,3%.
Среди пяти самых популярных также оказались мистика, комедия, а затем и ужасы. Разрыв между ними также небольшой.
Код к круговой диаграмме о пяти самых популярных жанрах
График 5
Линейный график отчетливо показывает количество дорам в соответствии с их рейтингом.
Больше всего из топа дорам с рейтингом 8.2, их насчитывается 65 штук. Приближаясь к отметке 9.2 динамика значительно падает, количество составляет всего 1 штуку, дорама «Move to Heaven».
Это показывает, что малое количество дорам удостаиваются очень высокой оценке, так как чем выше рейтинг, тем меньше их количество.
Дополнительное редактирование: в Photoshop фон был отформатирован до прямоугольной формы.
Код для определения количества дорам в соответствии с его рейтингом
Код к линейной диаграмме о количестве дорам с определенным рейтингом
Общий вывод
Благодаря проведенному анализу мне удалось выделить некоторую тенденцию: в большинстве случает в топ попадают более современные дорамы в жанре романтика с возрастным маркером 15+. Кроме того, на рейтинг влияет и количество эпизодов.
Подобные анализы могут помочь компаниям перед съемкой дорамы определить наиболее востребованные жанры, оптимальное количество серий, целевую аудиторию и ключевые элементы сюжета, которые привлекают зрителей. Это позволит создавать проекты с высоким потенциалом популярности и успешным коммерческим результатом.
Генеративные модели
В ходе анализа в основном я обращалась к официальной документации , но также использовала и Chat-GPT, который помог в визуальном оформлении и исправлении некоторых ошибок. Промты можно посмотреть тут.
Обложка была сгенерирована в ideogram Промпт: «A soft pink aesthetic scene of a Korean drama romantic moment. A young couple with is standing on a hill during sunset. The boy is wearing a white shirt and the girl is wearing a pink dress. They are surrounded by pink flowers. The background contains a beautiful view of mountains and a serene lake».
Источники изображений
Изображения в исследовании: https://pin.it/47EWdAcF6 https://pin.it/7JlF4aaEi https://images.app.goo.gl/ctqXcfnJwjqiRv2U6 https://pin.it/5LPkXdlMc
Изображения на фоне гистограммы и линейной диаграммы: https://pin.it/1N5QRM3wh https://pin.it/5cewLhZsa



