форум общения русскоязычных пользователей CMS Текстпаттерн
Вы не зашли.
111
Отредактированно RussianAustria (25-11-2014 14:15:54)
Неактивен
Наверное самый интересный вопрос за последние две недели
Честно говоря не знаю как это сделать, но пробовал бы так:
1. Нашел бы конвертер, который обрабатывает вордовские файлы и перевел все документы в *.txt с кодировкой UTF-8
2. Расковырял бы скрипт импорта в ТП из WordPress и натравил на текстовые файлы.
А для чего это нужно? Может быть имеет смысл подсасывать сразу из файлов?
Неактивен
ого! какие объемы!!!
пару раз решал задачи разового массового ввода (несколько сотен-тысяч) статей в ТхП.
но 8 млн...!
даже не представляю, как будет работать МайСКЛ на таких объемах...
Сергей обозначил правильное направление:
1. Преобразование документов в текст
2. Массовая вставка данных. (Но мне кажется рациональнее отдельный скриптик написать специально для этого случая).
Неактивен
111
Отредактированно RussianAustria (25-11-2014 14:16:04)
Неактивен
111
Отредактированно RussianAustria (25-11-2014 14:16:13)
Неактивен
RussianAustria написал:
Каким способом?
Написал выше.
я специально писал скрипт.
такого плана задачи очень индивидуальны.
надо заранее некоторые организационные моменты предусмотреть с определением категорий, секций и т.п.
учесть вопросы по организации данных - т.к. объемы большие и 10 раз не перезальешь...
Неактивен
Делаешь сайт с досье на всех питерцев?
Неактивен
RussianAustria написал:
В любом случае надо пробовать сколько влезит максмально.
В боевых условиях (не на ТхП) проверял - до миллиона записей (каждая запись таблицы - немного текста) МайСКл работал терпимо.
дальше все тормозило. Но это было давненько, хотя сервер был не плохой.
При таких объемах многое будет от железа зависеть.
Ты скажи - вопрос носит теоретический характер или и вправду есть необходимость такая?
P.S. Из любопытства - сколько места на жестком занимают 8 миллионов файлов в .doc?
Неактивен
111
Отредактированно RussianAustria (25-11-2014 14:16:25)
Неактивен
У меня в руках HardDisk на 400 кг. Сколько инфа занимает места напишу когда подключу диск.
Неактивен
111
Отредактированно RussianAustria (25-11-2014 14:16:35)
Неактивен
20 кг - это 20 Гигабайт?
вопрос, в общем-то, действительно был из любопытства.
Просто прикинуть - какое минимальное железо должно быть под такой объем.
но что-то не сходится.
при минимальном размере doc-файла 20кБ, перемножив на 8 млн. файлов - получается 160 гБ
либо doc-файлы какие-то странно маленькие, либо файлов - не 8 млн, либо у меня что-то с арифметикой...
Проект по любому - какой-то серьезный планируется.
Судя по всему - изменяться данные после ввода не будут?
Может быть рациональнее не использовать ТхП под такую задачу?
а все делать в html или shtml файлах?
Неактивен
все это сделать проще в django imho
Неактивен
По-моему, это ни на чем не просто. Нужна автоматизация какая-то.
Неактивен
111
Отредактированно RussianAustria (25-11-2014 14:16:47)
Неактивен
RussianAustria, это возможно практически.
Последовательность действий расписана выше.
Неактивен