PHP.SU

Программирование на PHP, MySQL и другие веб-технологии

PHP.SU Портал

Главная

Помощь

Поиск

Поиск Яндекс Вакансии

Пользователи

Здравствуйте, Гость

( Вход · Регистрация · Правила форума )

Забыли пароль?

Удалить повторы слов в файле

Форумы портала PHP.SU » PHP » Программирование на PHP » Вопросы новичков (Модераторы: OrmaJever, Саныч, Строитель)

Страниц (1): [1]

Без описания

Поиск в теме | Версия для печати

seowin	Отправлено: 30 Сентября, 2015 - 14:06:25
Новичок Покинул форум Сообщений всего: 16 Дата рег-ции: Апр. 2015 Помог: 0 раз(а)	Помогите, пожалуйста, написать скрипт. Задача следующая. Есть txt файл, в котором строки формата: абдикация\|отречение абзац\|часть\|отрывок\|кусок\|рождать абитуриент\|ученик\|институтка\|академист абонировать\|нанимать\|рядить абордаж\|столкновение\|сцепка\|свалка абориген\|житель\|туземец абортировать\|рождать абракадабра\|бессмыслица\|отречение\|белиберда\|нелепость\|ахинея\|нелепица\|чепуха абсолютно\|полностью\|вполне\|бесспорно\|безусловно\|непременно\|совершенно абстрактный\|духовный\|бессмыслица\|отвлеченный абсурд\|бред\|бреда\|вздор\|абордаж Иногда слова в пределах разных строк повторяюся. Задача - удалить повторы слов. Т.е. не выходе должно быть: абдикация\|отречение абзац\|часть\|отрывок\|кусок\|рождать абитуриент\|ученик\|институтка\|академист абонировать\|нанимать\|рядить абордаж\|столкновение\|сцепка\|свалка абориген\|житель\|туземец абортировать абракадабра\|бессмыслица\|белиберда\|нелепость\|ахинея\|нелепица\|чепуха абсолютно\|полностью\|вполне\|бесспорно\|безусловно\|непременно\|совершенно абстрактный\|духовный\|отвлеченный абсурд\|бред\|бреда\|вздор Ломал голову, так и не смог написать рабочий вариант скритпа. Не доходит, как пересохранить строку в файле. Накидал пока вот что: PHP: скопировать код в буфер обмена <?PHP $file = file('1.txt'); for($a = 0; $a < count($file); $a++) { $file[$a] = trim($file[$a]); $ex = explode('\|', $file[$a]); foreach($ex as $val) { for($i = 0; $i < count($ex); $i++) { for($j = $a + 1; $j < count($file); $j++) { if(strpos($file[$j], $ex[$i])) { str_replace($ex[$i], "", $file[$j]) . "<br/>"; } } } } ?>

dcc0	Отправлено: 30 Сентября, 2015 - 14:34:26
Участник Покинул форум Сообщений всего: 1043 Дата рег-ции: Июль 2014 Помог: 10 раз(а)	Примерно вижу так: 1. Читаем файл-источник. 2. Сохраняем во временный файл весь словарь, т.е. первые слова до знака \|. 3. Читаем временный файл построчно, каждую строку (одно слово) ищем в файле-источнике, если найдено и если слово стоит не на первой позиции, то удаляем. Как сохранить? Пишем строки, в которых не нашли, в новый файл, в которых нашли тоже пишем в новый файл, но без повтора. Когда дойдем до последней строки во временном файле, удалим временный файл, удалим старый файл и переименуем новый, присвоив ему имя старого. Т.е. как я понимаю, надо взять первое слово, пробежаться по всему файлу, удалить, потом взять второе и т.д. Тот код, который Вы написали, похоже, не является решением. (Отредактировано автором: 30 Сентября, 2015 - 14:43:10) ----- Март 2021. Бросил программирование

neokiev	Отправлено: 30 Сентября, 2015 - 16:05:19
Новичок Покинул форум Сообщений всего: 7 Дата рег-ции: Сент. 2015 Помог: 0 раз(а)	Если слов не очень много, то простой способ: CODE (htmlphp): скопировать код в буфер обмена //читаем данные из файла $contents = file_get_contents('data.txt'); //делаем массив - удаляем ненужные переносы строк и прочее $arrayOfWords = explode('\|', preg_replace('/\s+/', '',($contents))); //вуаля массив без дубликатов var_dump(array_unique($arrayOfWords)); //дальше если нужно $result = implode('\|', array_unique($arrayOfWords)); Также если нужно учитывать верхний и нижний регистр слов - то смотрим в сторону strtolower (Отредактировано автором: 30 Сентября, 2015 - 16:07:45)

seowin	Отправлено: 30 Сентября, 2015 - 17:12:48
Новичок Покинул форум Сообщений всего: 16 Дата рег-ции: Апр. 2015 Помог: 0 раз(а)	neokiev пишет: Если слов не очень много, то простой способ: Нужно, чтобы строки имели точно такой же вид, как в исходном файле, так как это база синонимов. Каждая строка отвечает за свой синонимичный ряд (Отредактировано автором: 30 Сентября, 2015 - 17:14:07)

neokiev	Отправлено: 30 Сентября, 2015 - 17:34:34
Новичок Покинул форум Сообщений всего: 7 Дата рег-ции: Сент. 2015 Помог: 0 раз(а)	хорошо, нужно было описать изначально в задаче, дальше: в какой строке нужно удалять дубликат? если он есть? (Добавление) Код работает: тестовые данные data.txt CODE (htmlphp): скопировать код в буфер обмена asdfjasdjf\|fasdfasdfas\|afsdfasdfs ggggggg\|ffffff\|adsasda\| fff\|1234\|8888\|fffff\|fff kasd\|ROFL\|ROFL ROFL\|asda\|9999 OOOOP\|kiko\|NIKO NIKO\|BOOM\|LIQUID результат newfile.txt CODE (htmlphp): скопировать код в буфер обмена asdfjasdjf\|fasdfasdfas\|afsdfasdfs ggggggg\|ffffff\|adsasda fff\|1234\|8888\|fffff kasd\|ROFL asda\|9999 OOOOP\|kiko\|NIKO BOOM\|LIQUID CODE (htmlphp): скопировать код в буфер обмена <?php //читаем данные из файла $contents = file_get_contents('data.txt'); //разбиваем данные по переносу строк $default = explode("\n", $contents); $newOne = array(); $appearances = array(); foreach ($default as $first => $line) { //разбиваем каждый елемент на слова $exploded = explode('\|', $line); //проходим по каждому слову foreach($exploded as $currentItem) { //проверяем что бы елемент был не пустой, и не повторялся if ($currentItem !== '' && !in_array($currentItem, $appearances)) { //добавляем елемент в массив $appearances который позволяет //исключит дубликаты $appearances[] = $currentItem; $newOne[$first] .= $currentItem . '\|'; } } } //проходим по массиву новому //и удаляем последний \| и добавляем вместо него перенос строки //тут можно заменить на str_replace/substrreplace $resulting = array_map(function($element) { $removeLast = substr($element, 0, -1); return $removeLast . "\n"; }, $newOne); $writeToFile = implode("",$resulting ); $file = fopen('newfile.txt', 'w+'); fwrite($file, $writeToFile); fclose($file); код можно немного доработать, также посмотреть что бы небыло проблем с кодировкой (Отредактировано автором: 30 Сентября, 2015 - 18:15:11)

dcc0	Отправлено: 30 Сентября, 2015 - 21:12:03
Участник Покинул форум Сообщений всего: 1043 Дата рег-ции: Июль 2014 Помог: 10 раз(а)	neokiev, я почему-то думаю, что решение не совсем верное. Код несколько нарушил порядок в результате. ----- Март 2021. Бросил программирование

neokiev	Отправлено: 30 Сентября, 2015 - 21:46:34
Новичок Покинул форум Сообщений всего: 7 Дата рег-ции: Сент. 2015 Помог: 0 раз(а)	dcc0 пишет: Код несколько нарушил порядок в результате. Не вижу где? Пример можно?) dcc0 пишет: neokiev, я почему-то думаю, что решение не совсем верное. Это одно из решений. Которое можно доработать, я подсказал направление.

dcc0	Отправлено: 30 Сентября, 2015 - 22:26:16
Участник Покинул форум Сообщений всего: 1043 Дата рег-ции: Июль 2014 Помог: 10 раз(а)	Было ROFL\|asda Стало ROFL asda Тут нужно уточнение автора. Я так понимаю - это своебразеый словарь синонимов. Тут может быть важным порядок следования знаков, количество строк. (Добавление) Проще говоря, пример автора и Ваш результат мало изоморфны. (Отредактировано автором: 30 Сентября, 2015 - 22:28:10) ----- Март 2021. Бросил программирование

neokiev	Отправлено: 30 Сентября, 2015 - 22:55:35
Новичок Покинул форум Сообщений всего: 7 Дата рег-ции: Сент. 2015 Помог: 0 раз(а)	dcc0 пишет: Было ROFL\|asda Стало ROFL asda не верно вот что было и стало CODE (htmlphp): скопировать код в буфер обмена kasd\|ROFL\|ROFL ROFL\|asda\|9999 kasd\|ROFL asda\|9999 это разные строки. Суть даже не в этом, задача до конца не сформулирована. Автор, если есть возможность приведите полный пример файла, и уточните в каких случаях удалять, спасибо.

seowin	Отправлено: 01 Октября, 2015 - 08:24:51
Новичок Покинул форум Сообщений всего: 16 Дата рег-ции: Апр. 2015 Помог: 0 раз(а)	Спасибо за помощь. Проверил, результат получился таким: абдикация\|отречение абзац\|часть\|отрывок\|кусок\|рождать абитуриент\|ученик\|институтка\|академист абонировать\|нанимать\|рядить абордаж\|столкновение\|сцепка\|свалка абориген\|житель\|туземец абортировать абракадабра\|бессмыслица\|отречение\|белиберда\|нелепость\|ахинея\|нелепица\|чепуха абсолютно\|полностью\|вполне\|бесспорно\|безусловно\|непременно\|совершенно абстрактный\|духовный\|отвлеченный абсурд\|бред\|бреда\|вздор Т.е. не удалился повтор слова "отречение". Полный файл имеет около 15 тыс. строк. Нужно, чтобы каждое слово в файле встречалось всего 1 раз. Т.е. алгоритм следующий: 1. разбиваем строку на слова 2. ищем вхождение каждого слова в каждой строке последующей строке 3. если вхождение найдено, заменяем его на "" На выходе должен быть файл, в котором: а) строки имеют такой же вид, как в первоначальном файле б) заменены все повторы слов на "" Ничего страшного, если будут строки такого вида: абордаж\|\|сцепка\|свалка Т.е. будут рядом две вертикальные черты "\|\|". Главное, чтобы в пределах разных строк не было повторов слов. Зачем это все надо: Далее этот файл поместится в БД. При выборке какого-то конкретного одного слова, база должна возвращаться одну строку. Сейчас же из-за повторов слов в разных строках база возвращает несколько строк, в которых находит вхождение заданного слова.

neokiev	Отправлено: 01 Октября, 2015 - 10:08:32
Новичок Покинул форум Сообщений всего: 7 Дата рег-ции: Сент. 2015 Помог: 0 раз(а)	А что мешает доработать скрипт который я написал выше. используй var_dump() или xdebug и смотри где и почему слово удалилось. И еще если вы будете использовать базу то, есть еще один вариант: 1) Можно читать из файла построчно и записывать в базу, и проверять нет ли такой записи в базе, если слово существует то не записывать, главное правильно структуру базы сделать. (Отредактировано автором: 01 Октября, 2015 - 10:11:09)

dcc0	Отправлено: 01 Октября, 2015 - 11:05:04
Участник Покинул форум Сообщений всего: 1043 Дата рег-ции: Июль 2014 Помог: 10 раз(а)	seowin, т.е. первые слова в строке всегда в алфавитном порядке? И если их 15 тыс, - они от "А" до "Я" ? (Отредактировано автором: 01 Октября, 2015 - 12:19:27) ----- Март 2021. Бросил программирование

Deonis	Отправлено: 01 Октября, 2015 - 12:40:40
Посетитель Покинул форум Сообщений всего: 298 Дата рег-ции: Нояб. 2009 Помог: 14 раз(а)	seowin, т.к. файл большой и его структура такая же, как у csv-файлов, то я бы сделал так: PHP: скопировать код в буфер обмена $output = []; $voc = []; if (($fp = fopen('input_file.csv', 'r')) !== false) { while (($data = fgetcsv($fp, 1000, '\|')) !== false) { $tmp = array_diff($data, $voc); $voc = array_merge($voc,$tmp); $output[] = $tmp; } fclose($fp); } // записываем обработанные данные в новый файл $fp = fopen('output_file.csv', 'w'); foreach ($output as $fields) { fputcsv($fp, $fields, '\|'); } fclose($fp); P.S. Расширение файла не обязательно должно быть csv (Отредактировано автором: 01 Октября, 2015 - 12:42:55)

andrewkard	Отправлено: 01 Октября, 2015 - 13:55:31
Участник Покинул форум Сообщений всего: 1372 Дата рег-ции: Нояб. 2014 Помог: 30 раз(а)	Еще вариант : PHP: скопировать код в буфер обмена $f = fopen('1.txt','r'); $arr_test = array(); $str = ''; while (!feof($f)) { $line = fgets($f); $arr_words = explode('\|',$line); foreach ($arr_words as $index => $word){ if (in_array(trim($word), $arr_test)){ $arr_words[$index] = ''; } else { $arr_test[] = trim($word); } } $str .= join('\|', $arr_words); } fclose($f); $f = fopen('2.txt','w'); fwrite($f, $str); fclose($f);

seowin	Отправлено: 01 Октября, 2015 - 14:06:33
Новичок Покинул форум Сообщений всего: 16 Дата рег-ции: Апр. 2015 Помог: 0 раз(а)	Интересный способ. Большое спасибо! Работает, как надо! Deonis пишет: seowin, т.к. файл большой и его структура такая же, как у csv-файлов, то я бы сделал так: PHP: скопировать код в буфер обмена $output = []; $voc = []; if (($fp = fopen('input_file.csv', 'r')) !== false) { while (($data = fgetcsv($fp, 1000, '\|')) !== false) { $tmp = array_diff($data, $voc); $voc = array_merge($voc,$tmp); $output[] = $tmp; } fclose($fp); } // записываем обработанные данные в новый файл $fp = fopen('output_file.csv', 'w'); foreach ($output as $fields) { fputcsv($fp, $fields, '\|'); } fclose($fp); P.S. Расширение файла не обязательно должно быть csv

Поиск в теме | Версия для печати

Страниц (1): [1]

Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)

« Вопросы новичков »

Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.